Ces logiciels open source indispensables aux géants du Web Yahoo! : un cluster Hadoop de 35 000 nœuds

Le site américain est l'un des plus gros contributeurs au projet Hadoop et l'un de ses plus gros utilisateurs avec plus de 35 000 nœuds en production. Il utilise bien évidemment le framework pour stocker son index de sites Web, mais aussi pour l'optimisation de ses espaces publicitaires et la diffusion de ses contenus rédactionnels. L'anti-spam de Yahoo! Mail s'appuie sur des algorithmes de machine learning également exécuté sur Hadoop.

Apache Spark comme levier de machine learning

marissa mayer est pdg de yahoo!.
Marissa Mayer est PDG de Yahoo!. © JDN - Benoit Meli

En outre, Yahoo! commence à exploiter Apache Spark. Avec à la clé ses modules Shark SQL, Spark Streaming, MLlib pour le machine learning. Mais également GraphX. Cette plateforme est considérée comme le successeur d'Hadoop. Yahoo a commencé à utiliser les deux technologies combinées notamment pour son site d'e-commerce et d'enchère à Taiwan et pour le ciblage publicitaire.

Côté interfaces utilisateur, Yahoo! a publié sous licence open source Mojito, son framework JavaScript pour développer des applications mobiles HTML5.

 Principales solutions open source : Linux, Hadoop, Zookeeper, Spark, Yarn.