Tes­ter la so­li­di­té de son système… en pro­duc­tion

Pour dé­pas­ser les li­mites des tests, des géants du Web, comme Net­flix, mais aus­si Oui SNCF, in­tro­duisent des agents per­tur­ba­teurs dans leur système pour en tes­ter la ré­si­lience. Et mieux évi­ter le grand chaos.

L'Informaticien - - INFRA - REYNALD FLéCHAUX

Et si on in­tro­dui­sait sciem­ment une dose de chaos dans le système in­for­ma­tique pour vé­ri­fier sa so­li­di­té ? Le prin­cipe est ex­ploi­té au quo­ti­dien par de grands ac­teurs du Web pour tes­ter la ré­si­lience de leur système : c’est- à- dire sa ca­pa­ci­té à en­cais­ser des dys­fonc­tion­ne­ments sans af­fec­ter le ser­vice ren­du à l’uti­li­sa­teur. Cette ap­proche, ap­pe­lée Chaos En­gi­nee­ring, a été pour la pre­mière fois mise en pra­tique par Net­flix, il y a six ans. Au sor­tir d’une panne sé­vère d’AWS, le site de VOD a dé­ve­lop­pé toute une sé­rie d’agents, la Si­mian Ar­my ( l’ar­mée si­miesque), qui, par des ac­tions dé­sta­bi­li­sa­trices, testent la fia­bi­li­té, la sé­cu­ri­té ou la ré­si­lience du Cloud d’Ama­zon. Le Chaos En­gi­nee­ring a de­puis es­sai­mé jusque dans l’Hexa­gone où Voyages- SNCF l’a par exemple mis en pra­tique ( voir en­ca­dré). « Il faut par­tir du prin­cipe que tout système, aus­si ro­buste soit- il, va tom­ber un jour ou l’autre » , ex­plique Syl­vain Hel­le­gouarch, le co- fon­da­teur de Chaos IQ, une jeune so­cié­té po­si­tion­née sur le cré­neau. « Le Chaos En­gi­nee­ring consiste à ex­plo­rer ce brouillard qu’est la pro­duc­tion in­for­ma­tique. » Et à pla­cer dé­ve­lop­peurs, ex­ploi­tants, mais aus­si opé­ra­tion­nels de­vant les consé­quences po­ten­tielles des dé­faillances. Dans la pro­lon­ga­tion de la lo­gique Devops.

Adap­té aux mi­cro- ser­vices

La dé­marche acte aus­si l’in­suf­fi­sance des tests, li­mi­tés par leurs coûts et n’of­frant qu’une vi­si­bi­li­té li­mi­tée sur ce qui va réel­le­ment se pas­ser en pro­duc­tion. « Il ne s’agit pas de les rem­pla­cer, mais bien de les com­plé­ter avec une mé­thode plus ex­plo­ra­toire » , dit Syl­vain Hel­le­gouarch. Lo­gi­que­ment, le Chaos En­gi­nee­ring se des­tine plus par­ti­cu­liè­re­ment aux en­vi­ron­ne­ments com­po­sites, connais­sant de fré­quentes mises en pro­duc­tion. « Avec une ar­chi­tec­ture ba­sée sur des mi­cro- ser­vices, vous ne faites plus face à un mo­no­lithe, mais à une my­riade de ser­vices, donc de points de fai­blesse po­ten­tiels » , ajoute le spé­cia­liste. C’est d’ailleurs cette mu­ta­tion qui a pous­sé Net­flix à mettre sur pied sa Si­mian Ar­my. Si, chez le spé­cia­liste de la VOD, les agents per­tur­ba­teurs tournent en li­ber­té dans l’en­vi­ron­ne­ment de pro­duc­tion, une en­tre­prise dé­mar­rant la dé­marche doit y al­ler pas à pas. En com­men­çant par tra­vailler sur la ré­si­lience de son système. Puis en in­tro­dui­sant un agent lo­gi­ciel fau­teur de troubles dans des en­vi­ron­ne­ments de tests ou de pré- pro­duc­tion. Avant de lui en­trou­vrir les portes de la pro­duc­tion. « Mais wd’abord sur des ser­vices non cri­tiques et en pré­ve­nant les équipes de pro­duc­tion du mo­ment où le test va avoir lieu » , aver­tit Syl­vain Hel­le­gouarch. ❍

La Si­mian Ar­my de Net­flix com­prend no­tam­ment Chaos Go­rilla, qui va jus­qu’à si­mu­ler la panne d’une zone en­tière d’AWS ! Cer­tains des « pe­tits monstres » du site de VOD sont dis­po­nibles en Open Source.

Newspapers in French

Newspapers from France

© PressReader. All rights reserved.