Les coulisses informatiques de Twitter Analytics : Hadoop et Scala à tous les étages
Il faut dire qu'avec 2,8 milliards de tweets édités par an (5 000 tweets par seconde en moyenne avec des pics à plus de 25 000), pouvoir traiter en masse les données est plus qu'une priorité pour Twitter.
Parmi les principales briques d'Hadoop utilisées par le réseau social pour répondre à ses besoins analytiques, on trouve notamment MapReduce et le système de fichiers HDFS (Hadoop Distributed File System). Parallèlement, Twitter fait appel un autre gestionnaire de traitement en masse des données : Pig.
Le site a également conçu Scalding, une libraire reposant sur le langage de programmation Scala : un puissant système de requêtage pour, par exemple, connaitre le nombre de fois que chaque URL est tweetée pour un jour donné.