Storm : Apache intègre le Big Data temps réel de Twitter

La Fondation accueille le projet open source de Twitter dans son incubateur. Véritable alternative au mode batch d'Hadoop, Storm propose de traiter en temps réel des données en masse, réparties sur un cluster.

La Fondation Apache a voté l'entrée d'un nouveau projet open source au sein de son programme d'incubation. Baptisé Storm, il s'agit d'un outil de Big Data (sous Eclipse Public License 1.0). Cette technologie a été développée par BackType, une société acquise par Twitter en 2011. Son objectif : exécuter en temps réel des traitements de données en masse réparties sur un cluster de serveurs. L'idée est de proposer une alternative à Hadoop qui réalise ses traitements distribués en mode batch. Le projet Storm est hébergé sur GitHub.

Storm est déjà utilisé par beaucoup d'autres géants du web : Groupon, Yahoo! et les Chinois Baidu et Alibaba notamment. Chez Twitter, elle est exploitée pour supporter un grand nombre d'applications et besoins du site de microblogging : recherche, analytics temps réel, personnalisation...

"Storm est aussi intégré à tout le reste de l'infrastructure Twitter : les bases de données (Cassandra, Memcached, etc.), l'infrastructure de messagerie, ainsi que les systèmes d'alertes et de monitoring", indique Twitter. "Le moteur de planification de Storm permet d'utiliser un même cluster à la fois pour les applications en production et en développement, et offre un bon moyen de gérer la planification des capacités."

A la manière MapReduce sur le terrain de l'écriture de processus batch en parallèle, Storm (en s'appuyant sur les primitives) facilite l'écriture de traitements parallèles exécutés en temps réel. "L'une des premières applications Storm est capable de gérer 1 000 000 de messages par seconde sur un cluster de 10 nœuds", commente Nathan Marz, ingénieur chez Twitter et porteur du projet Storm.

Le projet Storm sur GitHub