Panne majeure d'Azure : Microsoft s'explique

D'abord globale, la panne du cloud de Microsoft a ensuite touché certains de ses clients européens pendant plusieurs heures hier. L'éditeur a dévoilé l'origine du problème.

Tout a commencé dans la nuit du 18 au 19 novembre. Entre 1h et 2h, heure française, le cloud Azure était touché par une panne mondiale, affectant la plupart de ses services. Alors que Microsoft a pu régler l'incident sur la plaque américaine, le problème semblait bel et bien persister le lendemain du côté des data centers européens du groupe, à Amsterdam et surtout à Dublin. Selon notre partenaire Cedexis, la disponibilité du data center irlandais du groupe est même tombée à 35% le 19 novembre vers 8h du matin. Des entreprises françaises utilisant Azure pour des systèmes critiques nous indiquaient que leurs instances n'avaient toujours pas redémarré ce même jour vers 16h (lire notre article : Microsoft Azure touché par une panne historique en Europe).

Dans un long post sur le blog officiel d'Azure, Microsoft s'explique. La cause de l'incident ? Une interruption du service de stockage d'Azure (Azure Storage) qui a touché cette nuit là les zones du cloud aux Etats-Unis, en Europe et en Asie. Le problème aurait été engendré par une mise à jour de ce service. "Les tests de cette mise à jour que nous avions réalisés sur une partie du service stockage orienté client [...] avaient néanmoins démontré une amélioration notable des performances. Nous avons par conséquent décidé de la déployer", explique Jason Zander de l'équipe Microsoft Azure. 

C'est durant cette phase de déploiement globale que tout dérape. Les équipes techniques d'Azure prennent conscience d'un dysfonctionnement provenant du stockage client d'objets binaires (ou BLOB pour Binary Large Object). "Il est parti en boucle à l'infini. Nous ne l'avions pas détecté lors du test", précise Microsoft. La conséquence : Azure Storage n'est plus capable d'encaisser le trafic. L'incident affecte alors par ricochet tous les autres services basés sur cette brique. "Nous sommes rapidement revenus en arrière, mais nous avons dû redémarrer ce service", ajoute Jason Zander. Pourtant, il semble bien que des clients ont pu souffrir encore pendant de longues heures d'une faible latence voire d'une indisponibilité totale de leurs VM. C'est aussi ce qu'indiquait encore ce jeudi 20 à 10h la page de statut d'Azure, précisant qu'une petite partie de clients pouvaient encore être impactée.

A l'heure où nous écrivons ces lignes, tout semble revenu à la normal. 

Microsoft / Azure