OVH : incendie de SBG2, incident évitable ?
Que s’est- il passé le soir du 9 mars 2021 au datacentre SBG 2 strasbourgeois D’OVH pour que ce dernier s’embrase et finisse entièrement carbonisé ? Disparues les données qui y étaient hébergées ! L’enquête le dira certainement, mais sans attendre ses conclusions, il est déjà possible d’émettre quelques hypothèses. Partons de faits qui semblent établis.
Le premier élément a prendre en compte dans les causes de l’incendie est la conception du datacentre. Il est de notoriété publique, comme en témoignent des photographies publiées sur Internet, que les structures internes des datacentres D’OVH sont en bois. Un matériau certes résistant, léger et écologique, mais qui n’est pas vraiment ignifugé, c’est le moins que l’on puisse dire.
Là- dessus, on sait maintenant que le datacentre strasbourgeois – probablement comme tous les datacentres D’OVH en France – n’était pas équipé d’un système anti- incendie à aspersion d’eau. On peut s’interroger sur la raison d’un tel manquement, et ce, d’autant que les datacentres D’OVH situés au Québec sont, eux, équipés d’un tel système.
Sur la liste de discussion fr- nog, un contributeur rapporte les propos d’un employé D’OVH à propos des systèmes d’extinction : « Pour avoir visité Roubaix 4 il y a quelques années, il n’y a pas non plus de système d’extinction d’incendie. J’avais relevé cela auprès de la personne qui a fait la visite et la réponse était : “Ça coûte cher pour un risque quasi nul. ” »
À en croire un post assez ancien du site lafibre. info ( https:// lafibre. info/ ovh- datacenter/ ovh- et- la- protection- incendie/ msg80633), « Quasiment tous les bâtiments aux États- Unis et au Canada sont équipés d’aspergeurs, qui sont quasi- obligatoires réglementairement parlant et côté assurance. […] En France, les datacentres sont réglementés essentiellement par le code du travail, par les préconisations ICPE ( à autorisation ou déclaration) et par les assureurs. Au niveau purement réglementaire, les seules choses demandées sont :
- le désenfumage mécanique ou naturel pour les locaux aveugles ou faisant plus de 300 m ² ;
- le compartimentage coupe- feu au- delà d’un certain volume / métrage ;
- des issues de secours accessibles avec une certaine largeur ;
- une ventilation donnant un minimum d’air neuf par occupant ; - l’accessibilité pompier par la facade pour les locaux dont le plancher bas du dernier niveau est à plus de 8 mètres. »
Il est à noter que ces informations datent de 2013… Mais comme il n’y a jamais vraiment eu de sinistre dans des datacentres, il y a peu de chances que la réglementation ait changé depuis lors.
Le datacentre alsacien est donc probablement en structure bois, sans système d’extinction d’incendie. Tout le monde sait qu’un bâtiment rempli de câbles électriques dans lesquels circulent plusieurs centaines d’ampères court un risque. Peu importe la tension d’ailleurs, puisque la dissipation de chaleur par effet joule est proportionnelle au carré de l’intensité, et que les étincelles caractéristiques des ruptures de courant dans les circuits inductifs se manifestent quelle que soit la tension de fonctionnement.
Des vidéos disponibles sur Youtube montrent les effets désastreux que peuvent avoir des courts- circuits dans de telles installations ( par exemple : www. youtube. com/ watch? v= DpqeDcepen0). En plus de ce risque inhérent à toute salle électrique, il semble que les onduleurs destinés à assurer la continuité électrique avaient été installés dans le même bâtiment que les serveurs, au rez- de- chaussée – en raison du poids de ces équipements de secours, que la plupart des planchers ne pourraient pas porter. Que se passe- t- il lorsque l’une des batteries cesse de fonctionner normalement ? Examiner une salle remplie d’onduleurs n’est pas une tâche évidente, et ce d’autant que les batteries défectueuses ne sont pas toujours immédiatement repérables. En principe, ces dernières doivent se mettre à chauffer de plus en plus ( emballement), mais cette hausse est parfois légère et peu évidente au début, et peut passer inaperçue, même aux dispositifs de protection intégrés aux onduleurs. On pense savoir que certains de ceux- ci avaient fait le jour même du sinistre l’objet d’opérations de maintenance. Y aurait- il eu
mauvaise manipulation, par exemple une inversion de polarité ? On se souvient que l’hébergeur avait déjà eu des soucis électriques dans ce même datacentre en 2017, où des groupes électrogènes n’avaient pas démarré malgré une panne d’alimentation ( cf. https:// www. numerama. com/ business/ 304644- bfm- business- cozycloud- une- importante- panne- chezovh- affecte- plusieurs- sites. html). Il semble maintenant établi que c’est bien un de ces onduleurs qui a pris feu. Or, du fait de la proximité des autres équipements, et faute de dispositif d’extinction, l’incendie a dû se propager rapidement. Et c’est là qu’intervient un troisième facteur : SBG 2 avait été conçu pour être refroidi par un système de convection passif qui, par effet de cheminée, admettait de l’air froid par le bas du bâtiment, et évacuait l’air chaud par le haut. Le bâtiment avait subi différentes modifications depuis 2015, mais qu’en était- il exactement du système de refroidissement ? Mystère. Or il va de soi qu’une alimentation constante en air frais depuis le sol n’a pu qu’attiser les flammes qui ravageaient le bâtiment.
Miroir aux alouettes ?
La manière dont l’incident a été géré par OVH a également largement prêté à commentaire. Les interfaces de gestion des services cloud, comme le manager, ont cessé de fonctionner, alors même que les clients cherchaient en urgence à accéder à ces fonctionnalités, par exemple pour changer les A ou AAAA records afin de faire pointer les URL vers des sites de secours hébergés ailleurs, ou activer les IP failovers ( certains rapportent même que leurs machines virtuelles avaient disparu de l’interface). La plupart des utilisateurs professionnels de l’infrastructure disposaient d’un « PRA » , un plan de reprise d’activité, c’est- à- dire un ou plusieurs backups physiquement distants et mobilisables quasi- immédiatement ; ceux- là n’ont eu à déplorer que quelques heures d’indisponibilité. Ce n’est malheureusement pas le cas des petites ou moyennes structures, PME ou collectivités locales, sans véritables compétences en termes d’architecture informatique. Pour ceux- là, à moins d’avoir pensé à réaliser une sauvegarde récente en local, tout est littéralement « parti en fumée » . Pis, il semble que le service « snapshot quotidien » , proposé par OVH pour précisément pallier une perte de données sur un disque dur, se soit révélé inutile, car les serveurs qui stockaient ces snapshots se trouvaient dans le même datacentre afin d’optimiser le trafic réseau… Encore une fois, on constate que les petites structures, sans beaucoup de moyens, sont souvent victimes d’un discours marketing martelé à l’encan par les principaux hébergeurs et opérateurs du Cloud, à savoir que délocaliser ses données « quelque part » dans le réseau revient à les prémunir contre ce genre de mésaventure – quitte parfois à faire jouer une certaine confusion sémantique sur le terme « données sécurisées » . L’incendie de Strasbourg montre que cela n’est hélas pas le cas. Transférer ses données dans le Cloud, c’est certes faire l’économie de l’achat de matériel informatique, et surtout de la location d’une liaison rapide pour faire vivre son site, mais il est illusoire de penser que les offres à petits prix, comme celles proposées par OVH, vont avec une garantie sur la pérennité des données. Coût minimal, service minimal. Ce principe de bon sens s’applique également pour l’hébergement informatique, quelle que soit la société choisie. Beaucoup pensent encore que l’hébergeur est responsable des données qui lui sont confiées. C’est évidemment faux. Payer peu, c’est accepter de se retrouver hébergé sur une machine virtuelle située dans un datacentre peutêtre mal conçu, sans redondance en cas de coup dur, en dépit de ce que laissent entendre les grands opérateurs. Il serait peut- être temps que les ministères compétents se penchent sur la question et prennent des décisions : réglementer la sécurité des datacentres, et obliger les hébergeurs à informer clairement leurs clients des conditions de conservation de leurs données. ✖