24 heures chrono : l'incendie d'OVH relaté minute par minute

24 heures chrono : l'incendie d'OVH relaté minute par minute Un déroulé qui pose plusieurs questions. Notamment, pourquoi des serveurs ont-ils continué de fonctionner alors que l'électricité était censée être coupée ?

Mercredi 10 mars 2021, 00h47, le système de détection d'incendie du campus strasbourgeois d'OVH se déclenche. Les alertes proviennent des salles 71 et 72 de Strasbourg 2 (SBG2), l'un des principaux data centers du site. Accompagnés de deux agents de sécurité, les deux techniciens d'astreinte se précipitent et entrent dans le centre de données. Une épaisse fumée noire envahit la structure. Le complexe n'est pas équipé de dispositif d'extinction automatique. La petite équipe évacue au bout d'une à deux minutes sans pouvoir intervenir. La scène est rapportée par Octave Klaba, PDG d'OVH, dans une une vidéo postée sur Twitter dès le 11 mars. Affectés par la fumée, deux des quatre collaborateurs seront ensuite pris en charge par les secours.

01h00

Les premiers véhicules de pompiers arrivent sur place quelques minutes avant 01h00. Les soldats du feu contactent aussitôt par téléphone le fournisseur d'électricité d'OVHCloud, Strasbourg Electricité Réseaux, pour solliciter une coupure des deux alimentations haute tension du complexe. L'opérateur confirme au JDN avoir reçu cet appel peu avant 1 heure : "Nos équipes techniques ont immédiatement été alertées en vue d'être envoyées sur le lieu du sinistre pour identifier les risques de sécurité et l'état de la situation", précise un porte-parole.

En attendant, le réseau électrique interne de l'infrastructure d'OVH n'est, lui, pas coupé. A 01h10, un client de l'entreprise relève sur sa console l'explosion de la température d'un serveur (voir tweet ci-dessous). Elle passe en 45 minutes de 50-55 degrés à près de 90. Le feu, dont la température oscille entre 1 200 et 1 500 degrés, n'a pas encore embrasé la machine à cette minute. Mais la hausse exponentielle de la chaleur prouve qu'il se rapproche à grands pas.

Dans la demi-heure qui suit, les baies localisées dans le centre de données en flammes commencent à tomber progressivement. "J'ai perdu toute communication avec mon serveur dédié installé sur SBG2 à 01h11", constate un client sur le forum de La Fibre un client. Un autre réagit en évoquant un VPS (virtual private server) qui ne répondait plus à 1h13 avant "une coupure complète une demi-heure après" (voir la capture de la console de monitoring ci-dessous).

Ouvert en 2012, SBG2 est équipé d'un système de ventilation par air ambiant basé sur la différence de pression entre le haut et le bas de l'édifice. Une climatisation naturelle dont le rapport performance/coût est suroptimisé. Revers de la médaille : elle favorise la propagation du feu. Toujours en fonctionnement à ce jour, un autre data center d'OVH est conçu sur le même modèle. Installé au siège social du groupe à Roubaix, il a été inauguré en juin 2011. Baptisé Roubaix 4 (RBX4), il affiche une capacité de 1 000 baies et 35 000 serveurs, contre 590 baies pour environ 12 000 serveurs pour SBG2.

A 01h15, un faible vent de sud pousse la fumée vers Strasbourg 3 (SBG3), mitoyen de SBG2 au nord. Elle se glisse peu à peu dans l'édifice. La grande majorité des serveurs de SBG3 sera touchée par des suies. Pour les remettre en fonction au plus vite, OVH mobilisera par la suite 80 personnes pour nettoyer 600 à 700 machines par jour. En parallèle, il déploiera une seconde chaîne de nettoyage sur son usine de Croix.

Ouvert en 2016, SBG3 compte 531 baies pour une capacité de 35 000 serveurs. Construit en dur, il intègre une nouvelle génération de systèmes de refroidissement, à base de water cooling. Une technologie maison qui équipe aussi les deux derniers data centers du site, à savoir SBG1 et SBG4 qui contiennent respectivement 5 000 et 10 000 serveurs. Ses baies commencent à s'éteindre peu après le début de l'incendie. "Les hosts et datastores de notre plateforme PCC (offre Private Cloud d'OVH, ndlr) étaient répartis sur différentes salles de SBG3. J'ai observé les derniers logs des serveurs à 01h19", indique le directeur technique d'une start-up au JDN, avant de préciser : "Seul un datastore situé dans la salle S341 est resté intact" et par conséquent épargné par les suies. Contacté, un autre client du service Private Cloud, également localisé dans la salle S341 mais aussi dans la salle S342, relève de son côté des séries de "coupures à partir de 1H22" avant un arrêt définitif de son environnement à 1H26.

Aux alentours de 01h30, le véhicule de Strasbourg Electricité Réseaux se gare sur le parking d'OVH. "Le chef de dépannage, après analyse de la situation, a donné l'ordre à notre bureau central […] de couper à distance les deux alimentations du site", confie le porte-parole de l'opérateur. C'est chose faite vers 01h50. "Dans les circonstances de cet événement, c'est un délai normal qui correspond au temps nécessaire pour se déplacer et analyser la situation avant d'opérer une coupure, en coordination avec les pompiers", ajoute le porte-parole. Approchés par le JDN, plusieurs fournisseurs de data centers confirment qu'il s'agit bien d'une procédure standard.

02h00

Fait troublant, les services de plusieurs clients contactés par le JDN demeurent opérationnels après la coupure des deux alimentations haute tension. C'est notamment le cas d'un éditeur SaaS dont les machines sont localisées sur SBG3, dans la salle S340 mais aussi dans la salle S341. La même dans laquelle la start-up citée plus haut a récupéré son seul serveur intact.  "Le lien a été perdu à 2h19 comme le montre notre système de monitoring (voir capture ci-après, ndlr)", signale son DSI. "Nous n'avons pas relevé d'éléments avant-coureurs." Egalement hébergés sur SBG3, les serveurs du site web du Centre Pompidou tombent quelques minutes après. "Via notre outil de monitoring, notre service infrastructure et réseau a constaté la rupture de l'accès à partir de 2h28", atteste un porte-parole. 

Un ou plusieurs groupes électrogènes de secours du campus semblent donc avoir pris le relais. Pourquoi se sont-ils mis en marche ? Etaient-ils équipés de dispositifs d'arrêt d'urgence accessibles aux pompiers comme le veut la procédure standard ? Si oui, pourquoi n'ont-ils pas été utilisés ?

© JDN

Sur l'ancien site sidérurgiste ArcelorMittal basé dans le quartier du Port du Rhin, la mobilisation des secours s'intensifie. Le dispositif mis en œuvre est impressionnant : 115 pompiers, 43 véhicules, six lances-canons et deux échelles. Venu en renfort, un bateau citerne des pompiers allemands de Kehl accoste à quelques mètres sur les berges du port de Strasbourg (voir photo en bas à droite dans le tweet ci-dessous). "A 2h54, les sapeur-pompiers ont mis en œuvre un périmètre de sécurité et procédé à l'isolation complète du site", affirme OVH dans sa communication de crise.

A 2h58, la plateforme de support d'OVHCloud affiche une nouvelle tâche de gestion d'incident avec un premier message d'information. "Nous faisons actuellement face à un incident majeur au sein de notre datacentre de Strasbourg, avec un feu déclaré dans le bâtiment SBG2. Les pompiers sont intervenus immédiatement mais ne sont pas parvenus à contrôler l'incendie de SBG2. Par mesure de précaution, l'électricité a été coupée sur l'ensemble du site, ce qui impacte tous nos services à SBG1, SBG2, SBG3 et SBG4", précise le message.

03h00

A 3h42, Octave Klaba publie un tweet annonçant l'incendie et recommandant aux clients touchés d'activer leur plan de reprise après sinistre.

04h00

Une heure et demie après, le feu s'étend à SBG1. Lui-aussi mitoyen de SBG2 mais au sud, ce centre de données a la particularité d'être composé de containers. Il est 4h09 d'après l'historique d'OVH. Au total, six containers seront entièrement détruits. L'intégralité de leurs baies (114 au total) sera reconnue non-récupérable par le groupe.

05h00

Les dernières fumées sont étouffées par les lances à incendie aux alentours de 5 heure du matin. A 5h30, l'incendie est officiellement circonscrit. Les pompiers procèdent à l'isolation complète du site et de son périmètre.

Près de 24 heures après

OVH publie sur sa plateforme les premières informations sur son plan de reprise d'activité le 10 mars à 23h16. "Nous travaillons à un plan pour relancer les trois datacentres non touchés (SBG3 et SBG4) ou partiellement touchés (SBG1), ainsi que notre réseau, le plus rapidement possible", explique le groupe. "Nous présentons (à nos clients, ndlr) nos plus sincères excuses pour les difficultés que cet incendie leur cause. Nous nous engageons à communiquer régulièrement avec la plus grande transparence sur les causes et les impacts."

Des causes encore indéterminées

A l'heure où nous écrivons ses lignes, 83 baies de SBG3 n'ont toujours pas été réactivées. Aux côtés de SBG2, le provider a également décidé de ne pas remettre en production SBG1 suite à un second incendie qui s'est déclaré dans ce data center le 19 mars, impactant un de ses containers. "La migration physique des infrastructures de SBG1 vers les autres datacentres de notre parc strasbourgeois est en cours de finalisation. Il reste 150 serveurs à remettre en service et cette opération devrait être menée à terme en milieu de semaine prochaine", indique OVH le 23 avril sur l'espace presse dédié à l'incendie. Côté SBG2, il complète : "14 472 serveurs bare metal ont été livrés dans le cadre de la mise en œuvre de solutions alternatives sur d'autres data centers. 30 775 VPS ont été redéployés sur SBG3, les 5 900 derniers services seront rétablis avant la fin du mois. Tous les services de Public Cloud ont été proposés sur les autres datacentres de notre parc."

Contacté par le JDN, OVHCloud n'a pas souhaité commenter ces informations. "Les investigations des pouvoirs publics et des compagnies d'assurance sont en cours pour comprendre la chronologie, le foyer et les modalités de propagation de l'incendie et ainsi pouvoir déterminer la cause de cet incendie. Pour l'instant, il est trop tôt pour tirer des conclusions", indique un porte-parole du groupe au JDN.