Panne géante d'Amazon S3 : AWS évoque une erreur humaine

Le 28 février en début de soirée, le service cloud de stockage d'Amazon a été touché par de fortes perturbations. Sur Twitter, des centaines d'utilisateurs se sont plaints de ne pouvoir accéder au service.

[Mis à jour le 03/03/17 à 10:20] La panne qui a touché Amazon S3 le 28 février provenait d'une erreur humaine qui est intervenue lors d'une opération de débogage. Une équipe technique d'AWS avait pour mission de décommissionner un petit nombre de serveurs ralentissant le système de facturation du service cloud de stockage.  Mais "l'une des commandes utilisée n'a pas été saisie correctement, ce qui a engendré le retrait d'un plus grand nombre de serveurs que prévu", explique AWS (lire le post de cette annonce).

Entre 18h45 et 22h49 ce 28 février, le service de stockage Amazon S3 d'AWS a été touché par de très fortes perturbations, principalement en Amérique du Nord. L'information a été relayée sur Twitter par des centaines d'utilisateurs du service. Des dizaines de sites, reposant sur S3, sont tombés aux Etats-Unis. C'est notamment le cas du site de questions-réponses Quora (voir le Tweet ci-dessous), mais aussi de Business Insider, Expedia ou News Corp. Sans oublier des applications cloud comme Zendesk, Slack, New Relic, Trello, Twilio ou encore le Docker Hub. D'autres sites ont essuyé des lenteurs, notamment le webmail de Yahoo, Pinterest et Airbnb.

© Capture JDN

La source du problème ? Amazon a évoqué "un taux d'erreur élevé" sur le service de stockage S3 hébergé dans ses data centers de la Côte Est des Etats-Unis. "Des erreurs qui ont pu impacter aussi des applications et services AWS dépendant de S3", a souligné le groupe américain. Le JDN a pu constater que la console de gestion d'Amazon S3 était, aussi, difficilement accessible depuis la France ce mardi entre 18h45 et 19h30.

La page proposée par AWS pour suivre l'état de service de ces différentes offres affichaient au départ des indicateurs intégralement au vert. AWS a confirmé un peu plus tard dans la soirée sur Twitter que le tableau de bord était lui aussi touché par la panne.

A 20h35, le groupe américain a confirmé avoir réglé le problème de remontée d'alerte. Dans la foulée, des erreurs ont pu être relevées sur le tableau de bord (voir la capture ci-dessous). On a pu y découvrir la liste des services AWS impactés par la panne de S3. A 22:21, AWS a précisé avoir pleinement rétabli les processus de récupération, de lecture et de suppression d'objet S3, et être en train de rétablir le fonctionnement normal de gestion d'ajout d'objet. A 22h49, Amazon annonçait le rétablissement complet du service.

Cliquer sur la capture pour l'agrandir

Une perte de 150 millions $ pour le S&P 500 

Selon Apica (un spécialiste de la supervision de la performance web), la panne d'AWS a touché 54 des 100 plus importants sites d'e-commerce aux Etats-Unis. Le temps d'accès à la plupart des sites affectés a explosé, certains d'entre eux seraient même restés inaccessibles. Spécialisé dans l'analyse des impacts liés aux risques digitaux, Cyence estime la perte enregistrée suite à la panne de S3 par les sociétés américaines du S&P 500 à 150 millions de dollars, et celle des sociétés de services financiers à 160 millions de dollars. 

Stockage / Amazon