Les coulisses informatiques de Twitter Analytics : Hadoop et Scala à tous les étages

Hadoop est un des principaux frameworks Open Source permettant de traiter de très fortes volumétries de données. Ce dernier est parfaitement taillé pour répondre aux besoins du géant du microblogging en matière d'exécution de flux d'informations.

né dans les laboratoires de google, et non de yahoo!, hadoop a vu son code rendu — Né dans les laboratoires de Google, et non de Yahoo!, Hadoop a vu son code rendu public en juin 2009. © backgroundstore - Fotolia.com

Il faut dire qu'avec 2,8 milliards de tweets édités par an (5 000 tweets par seconde en moyenne avec des pics à plus de 25 000), pouvoir traiter en masse les données est plus qu'une priorité pour Twitter.

Parmi les principales briques d'Hadoop utilisées par le réseau social pour répondre à ses besoins analytiques, on trouve notamment MapReduce et le système de fichiers HDFS (Hadoop Distributed File System). Parallèlement, Twitter fait appel un autre gestionnaire de traitement en masse des données : Pig.

Le site a également conçu Scalding, une libraire reposant sur le langage de programmation Scala : un puissant système de requêtage pour, par exemple, connaitre le nombre de fois que chaque URL est tweetée pour un jour donné.

Les coulisses informatiques de Twitter Analytics : Hadoop et Scala à tous les étages

Guides

Repères