OVH : un incident de plusieurs heures sur les serveurs mutualisés
Le service d'hébergement mutualisé d'OVH est resté en partie indisponible pendant plusieurs heures ce lundi 5 décembre. Provenant d'un surcroît de trafic sur le réseau interne de l'hébergeur, la panne a débuté aux alentours de 14h. A 18h30, les équipes d'OVH ont augmenté la bande passante. "Ce qui a permis de stabiliser la situation et nous donner le temps de trouver l'origine du problème", indique-t-on OVH.
L'incident a été entièrement solutionné à 22h. Il provenait "de l'effet de bord" d'un patch qui a provoqué un équilibrage de charge sur tous les serveurs web simultanément. "Chaque serveur cherchait les informations sur tous les 'filers' pour tous les sites", explique Octave Klaba, CTO et fondateur d'OVH. "C'est ce qui a provoqué l'augmentation du trafic interne (il a été multiplié par 6) car les serveurs web ne cachaient plus d'information. Cette augmentation a engendré une saturation de certains liens et des latences réseau. C'est ce qui a provoqué les coupures totales ou partielles d'accès aux sites web."
Le patch posant problème a été corrrigé, puis redéployé dans la foulée.
OVH entend tirer toutes les leçons de l'incident. Il annonce vouloir migrer d'ici quelques semaines le système d'équilibrage de charge (Cisco) de son hébergement mutualisé vers une technologie maison de load balancing. Autre annonce : la refonte du réseau de son data center P9 (qui passera de 10 Gigabits/s à 40/100 Gigabits) avec à la clé le déploiement de la technologie vRack, l'infrastructure réseau multi-datacenter bâtie par OVH - et notamment utilisée pour motoriser son offre de cloud.
L'explication du souci d'hier l’après midi sur le Mutu https://t.co/ed7DSHHp7q
— Octave Klaba / Oles (@olesovhcom) 6 décembre 2016