L'Informaticien

Tester la solidité de son système… en production

Pour dépasser les limites des tests, des géants du Web, comme Netflix, mais aussi Oui SNCF, introduise­nt des agents perturbate­urs dans leur système pour en tester la résilience. Et mieux éviter le grand chaos.

- REYNALD FLéCHAUX

Et si on introduisa­it sciemment une dose de chaos dans le système informatiq­ue pour vérifier sa solidité ? Le principe est exploité au quotidien par de grands acteurs du Web pour tester la résilience de leur système : c’est- à- dire sa capacité à encaisser des dysfonctio­nnements sans affecter le service rendu à l’utilisateu­r. Cette approche, appelée Chaos Engineerin­g, a été pour la première fois mise en pratique par Netflix, il y a six ans. Au sortir d’une panne sévère d’AWS, le site de VOD a développé toute une série d’agents, la Simian Army ( l’armée simiesque), qui, par des actions déstabilis­atrices, testent la fiabilité, la sécurité ou la résilience du Cloud d’Amazon. Le Chaos Engineerin­g a depuis essaimé jusque dans l’Hexagone où Voyages- SNCF l’a par exemple mis en pratique ( voir encadré). « Il faut partir du principe que tout système, aussi robuste soit- il, va tomber un jour ou l’autre » , explique Sylvain Hellegouar­ch, le co- fondateur de Chaos IQ, une jeune société positionné­e sur le créneau. « Le Chaos Engineerin­g consiste à explorer ce brouillard qu’est la production informatiq­ue. » Et à placer développeu­rs, exploitant­s, mais aussi opérationn­els devant les conséquenc­es potentiell­es des défaillanc­es. Dans la prolongati­on de la logique Devops.

Adapté aux micro- services

La démarche acte aussi l’insuffisan­ce des tests, limités par leurs coûts et n’offrant qu’une visibilité limitée sur ce qui va réellement se passer en production. « Il ne s’agit pas de les remplacer, mais bien de les compléter avec une méthode plus exploratoi­re » , dit Sylvain Hellegouar­ch. Logiquemen­t, le Chaos Engineerin­g se destine plus particuliè­rement aux environnem­ents composites, connaissan­t de fréquentes mises en production. « Avec une architectu­re basée sur des micro- services, vous ne faites plus face à un monolithe, mais à une myriade de services, donc de points de faiblesse potentiels » , ajoute le spécialist­e. C’est d’ailleurs cette mutation qui a poussé Netflix à mettre sur pied sa Simian Army. Si, chez le spécialist­e de la VOD, les agents perturbate­urs tournent en liberté dans l’environnem­ent de production, une entreprise démarrant la démarche doit y aller pas à pas. En commençant par travailler sur la résilience de son système. Puis en introduisa­nt un agent logiciel fauteur de troubles dans des environnem­ents de tests ou de pré- production. Avant de lui entrouvrir les portes de la production. « Mais wd’abord sur des services non critiques et en prévenant les équipes de production du moment où le test va avoir lieu » , avertit Sylvain Hellegouar­ch. ❍

 ??  ?? La Simian Army de Netflix comprend notamment Chaos Gorilla, qui va jusqu’à simuler la panne d’une zone entière d’AWS ! Certains des « petits monstres » du site de VOD sont disponible­s en Open Source.
La Simian Army de Netflix comprend notamment Chaos Gorilla, qui va jusqu’à simuler la panne d’une zone entière d’AWS ! Certains des « petits monstres » du site de VOD sont disponible­s en Open Source.

Newspapers in French

Newspapers from France