LinkedIn et Mozilla : des crashs serveurs pour une seconde de trop

Plusieurs sites Web et systèmes, reposant sur des serveurs Linux et Java, ne sont pas parvenus à digérer la seconde supplémentaire ajoutée au temps universel ce week-end.

Dans la nuit de samedi 30 juin au dimanche 1er juillet, une seconde "intercalaire" a été ajoutée au temps légal. Objectif : compenser le ralentissement de la rotation de la terre, et redresser le décalage engendré entre le temps astronomique (UT1) et le temps des horloges atomiques (UTC). C'est la 35e fois que l'opération est menée par l'IERS (International Earth Rotation and Reference Systems Service).

Par le biais du réseau NTP (pour Network Time Protocol), l'un des tous premiers protocoles Internet (remontant à 1985), les serveurs de la planète sont théoriquement capables de s'ajuster, et prendre en compte cette seconde supplémentaire. Schématiquement, NTP permet aux ordinateurs de se synchroniser via Internet sur un temps de référence communiqué par une série de serveurs NTP de premier et second niveau. Le processus est censé être transparent pour l'informatique de terrain.

Pourtant, de nombreux serveurs à travers le monde n'ont pas su encaisser le changement ce week-end (dixit Wired). C'est notamment le cas pour des systèmes de la fondation Mozilla et du réseau social LinkedIn, mais aussi chez Yelp, Gawker, BuzzFeed et StumbleUpon. Malgré l'implémentation du protocole NTP, tous ces systèmes auraient essuyé des problèmes dans la nuit de samedi à dimanche.

Des serveurs d'applications et des bases de données touchées

Egalement impacté, l'agrégateur Reddit (qui appartient à Wired) a posté un tweet indiquant être touché par des problèmes techniques liés à Java et la base de données Cassandra, et attribuant ces problèmes à l'ajout de la seconde UTM. De son côté, la fondation Mozilla a précisé que ses bugs concernaient à la fois Hadoop, ainsi qu'une autre plate-forme écrite en Java. D'autres sources pointent du doigt des incidents techniques liés à Linux.

Interrogé par Wired, Gawker a précisé avoir localisé des bogues, consécutifs au changement d'horloge, sur les serveurs Tomcat supportant son infrastructure Web. Des problèmes qui ont engendré des pannes complètes du service. Seule solution mise en avant par le site : un redémarrage complet des serveurs.

Certains sites, au premier rang desquels Google, avait mis en place un plan en vue d'anticiper d'éventuels problèmes. Le bug est intervenu alors qu'une tempête survenue presque au même moment aux Etats-Unis, en Virginie, a engendré des pannes de service sur un centre de données d'Amazon qui a également impacté certains services Web, notamment Pinterest, Netflix, et le PaaS de Salesforce.