Amazon explique l'énorme panne d'AWS

Amazon a livré plus de détails sur le dysfonctionnement rencontré sur l'un de ses datacenters le week-end dernier, mais certaines questions restent encore en suspense.

Amazon a publié un long article, très détaillé, sur la longue panne qui a affecté son datacenter en Virginie, balayé par une tempête, le week-end dernier. C'est donc précisément l'alimentation électrique de secours qui a défailli. Il n'a fallu que quelques minutes aux techniciens sur place pour la réparer, mais les serveurs ont, eux, mis trois heures pour redémarrer et reprendre leur activité normale. Amazon admet que cette durée devra être diminuée à l'avenir, mais rappelle aussi que ses équipements électriques, récents, avaient tous passé haut la main tous les tests de charge.

Cependant, comme le remarquent nos confrères de VentureBeat, certaines questions restent en suspens. Comment se fait-il par exemple que des clients de l'envergure de Netflix (ténor de la VOD outre-Atlantique) ait été impacté alors que sa redondance, justement mise au point après la panne d'AWS en avril 2011, aurait dû l'en prémunir ? La question peut également se poser pour des stars du Web social impactées comme Pinterest ou Instagram, même si ces derniers n'ont pas détaillé leur architecture technique ou accepté de s'expliquer au sujet des problèmes rencontrés le week-end dernier.

A en croire l'architecte Cloud de Netflix, Adrian Cockcroft, le problème serait venu précisément du service Elastic Load Balancers (ELB) proposé par AWS : "les instances ont été perdues sur une zone, mais le routage du trafic via ELB vers les zones qui fonctionnaient a également défailli", indiquait-il sur Twitter.

Serveurs / Amazon