Tester la solidité de son système… en production
Pour dépasser les limites des tests, des géants du Web, comme Netflix, mais aussi Oui SNCF, introduisent des agents perturbateurs dans leur système pour en tester la résilience. Et mieux éviter le grand chaos.
Et si on introduisait sciemment une dose de chaos dans le système informatique pour vérifier sa solidité ? Le principe est exploité au quotidien par de grands acteurs du Web pour tester la résilience de leur système : c’est- à- dire sa capacité à encaisser des dysfonctionnements sans affecter le service rendu à l’utilisateur. Cette approche, appelée Chaos Engineering, a été pour la première fois mise en pratique par Netflix, il y a six ans. Au sortir d’une panne sévère d’AWS, le site de VOD a développé toute une série d’agents, la Simian Army ( l’armée simiesque), qui, par des actions déstabilisatrices, testent la fiabilité, la sécurité ou la résilience du Cloud d’Amazon. Le Chaos Engineering a depuis essaimé jusque dans l’Hexagone où Voyages- SNCF l’a par exemple mis en pratique ( voir encadré). « Il faut partir du principe que tout système, aussi robuste soit- il, va tomber un jour ou l’autre » , explique Sylvain Hellegouarch, le co- fondateur de Chaos IQ, une jeune société positionnée sur le créneau. « Le Chaos Engineering consiste à explorer ce brouillard qu’est la production informatique. » Et à placer développeurs, exploitants, mais aussi opérationnels devant les conséquences potentielles des défaillances. Dans la prolongation de la logique Devops.
Adapté aux micro- services
La démarche acte aussi l’insuffisance des tests, limités par leurs coûts et n’offrant qu’une visibilité limitée sur ce qui va réellement se passer en production. « Il ne s’agit pas de les remplacer, mais bien de les compléter avec une méthode plus exploratoire » , dit Sylvain Hellegouarch. Logiquement, le Chaos Engineering se destine plus particulièrement aux environnements composites, connaissant de fréquentes mises en production. « Avec une architecture basée sur des micro- services, vous ne faites plus face à un monolithe, mais à une myriade de services, donc de points de faiblesse potentiels » , ajoute le spécialiste. C’est d’ailleurs cette mutation qui a poussé Netflix à mettre sur pied sa Simian Army. Si, chez le spécialiste de la VOD, les agents perturbateurs tournent en liberté dans l’environnement de production, une entreprise démarrant la démarche doit y aller pas à pas. En commençant par travailler sur la résilience de son système. Puis en introduisant un agent logiciel fauteur de troubles dans des environnements de tests ou de pré- production. Avant de lui entrouvrir les portes de la production. « Mais wd’abord sur des services non critiques et en prévenant les équipes de production du moment où le test va avoir lieu » , avertit Sylvain Hellegouarch. ❍