Panne d'Amazon EC2 : la performance du Cloud en question

Plusieurs sites Web hébergés sur la plate-forme de Cloud Computing ont été touchés par l'arrêt de services. 30 heures après la première alerte, la panne n'est toujours pas corrigée.

La répartition des centres de données d'Amazon sur plusieurs zones géographiques n'a pas empêché une interruption des services de Cloud d'EC2 opérés par le groupe aux Etats-Unis jeudi après-midi (qui a commencé vers 2h00 du matin heure locale). Malgré une réplication sur plusieurs datacenters, plusieurs sites Web hébergés sur l'environnement on été touchés, et se sont retrouvés indisponibles.

Quora essuie une interruption de service

C'est notamment le cas le Quora. La page d'accueil du site Web de questions-réponses affichait hier le message suivant : "Nous faisons face à une coupure non-prévue, et travaillons à la remise en service du site dans les meilleurs délais."

D'autres sites ont également fait les frais du crash, le site de géolocalisation Foursquare ou le service de forums Reddit. A l'heure où nous écrivons ces lignes, la page d'accueil de ce dernier affiche toujours un texte faisant état d'une dégradation des performances d'Amazon EC2 l'obligeant à fonctionner en mode dégradé.

Amazon a reconnu rapidement un problème sur le réseau reliant ses centres de données à l'Est des Etats-Unis. "Nous pouvons confirmer que des erreurs de connexion ont impacté les instances EC2, et engendré des temps de latence sur les volumes stockage EBS (Elastic Block Storage) dans la région US-EAST-1 de notre réseau aux Etats-Unis", a précisé l'opérateur de Cloud. 9 heures après, l'incident était en grande partie maitrisé.

Les datacenters d'Amazon sont répartis sur plusieurs zones réseau à travers le monde, auxquelles sont rattachés les clients en fonction de leur localisation. US-EAST-1 se trouve au nord de la Virginie.

L'incident relance le débat sur les risques liés à l'adoption du Cloud Computing

Le problème aurait entrainé une réplication de gros volumes de données engendrant une saturation des systèmes de stockage de la zone. A 14h00 heure locale hier, Amazon reconnaissait rencontrer toujours des problèmes sur ces instances EBS sur la région US-EAST-1, et recommandait aux clients impactés de relancer leurs volumes de données pour qu'ils soient automatiquement attribués à une autre zone du réseau. A l'heure qu'il est, 30 heures après la première alerte, la panne n'est toujours pas corrigée.

L'incident relance le débat sur les risques liés à l'adoption du Cloud Computing. Ce modèle d'externalisation complet de l'hébergement et de l'infogérance des couches basses d'un site ou d'une applications Web engendre des risques inhérents à l'utilisation d'Internet. La mutualisation d'importantes ressources machines chez un fournisseur contribue certes à réduire les coûts d'infogérance, mais dans le même temps entraine des risques. La gestion d'une infrastructure de Cloud distribuée sur plusieurs centres de données demeure en effet complexe à maitriser de bout en bout.