Ces logiciels open source indispensables aux géants du Web LinkedIn : une version "temps réel" du moteur Apache Lucene

Initialement développé sur une base Oracle, le réseau social professionnel a beaucoup évolué avant d'atteindre son architecture actuelle. LinkedIn a mené de nombreux développements en interne, dont le projet Voldemort. Il s'agit d'une base NoSQL de type clé/valeur qui vient en complément d'Oracle, base toujours présente chez LinkedIn et de MySQL. Le site a aussi mis au point une nouvelle base orientée document, Espresso. Celle-ci n'a, pour l'heure, pas encore été publiée en open source.

LinkedIn : un acteur très actif au sein de l'écosystème Hadoop

linkedin utilise azkaban, une solution qui lui permet de planifier ses workflows
LinkedIn utilise Azkaban, une solution qui lui permet de planifier ses workflows Big Data. © JDN / Hugo Sedouramane

Par contre, LinkedIn a publié sous licence libre quelques éléments clés de son architecture. C'est le cas de Databus, le logiciel qui détecte lorsqu'une modification survient dans votre profil et transmet l'information aux autres applications du site. Autre projet maison, Apache Kafka, un composant qui transmet les messages en temps réel sur la plateforme.

Comme tout grand réseau social qui se respecte, LinkedIn exploite une architecture Hadoop, notamment pour mener ses analyses de liens entre membres. Outre Apache Hadoop, LinkedIn exploite Azkaban, une solution qui lui permet de planifier ses workflows de Big Data. Toujours sur le volet Hadoop, la société participe aux projets Apache DataFu, White Elephant, des composants additionnels au framework open source.

LinkedIn exploite le moteur de recherche Apache Lucene, dans une version temps réel baptisée Zoie. Celle-ci a été développée pour les besoins de LinkedIn qui l'a offert à la communauté en juillet 2008. Autre adaptation de Lucene publiée sous licence open source : Bobo. Cette solution permet une recherche à facettes. C'est ce qui permet de filtrer les résultats sur un ou plusieurs critères.

 Principales solutions open source : Linux, Tomcat, Lucene, Voldemort, Kafka, Hadoop, Azkaban,