eBay précise comment son nouveau moteur de recherche va utiliser Hadoop

Hadoop et HBase seront au cœur du prochain moteur de recherche d'eBay. Nom de code : Cassini. Son algorithme prendra en compte dix fois plus de facteurs que son prédécesseur.

Lors d'une conférence présentée lors de l'événement Hadoop World, eBay en a dit plus sur son nouveau moteur de recherche Cassini, qui doit venir remplacer l'ancien moteur interne du site d'enchères Galileo, vieux de 10 ans. Un projet qui s'inscrit dans le cadre d'un environnement exigeant : le nouveau moteur devra en effet traiter 250 millions de requêtes par jour portant sur un catalogue de 200 millions de références.

L'index sera rafraîchie toutes les heures grâce à la technologie Hadoop et sa base de données HBase - toutes deux distribuées sous licence Apache. Cassini indexera tout le contenu du site mais prendra également en compte des données sur les utilisateurs. Le nouveau moteur va en effet garder 90 jours d'historique de recherches, et pourra ainsi inclure le comportement des utilisateurs pour améliorer la pertinence de ses résultats. 100 facteurs détermineront le classement dans les pages de résultats affichées par Cassini, soit 10 fois plus aujourd'hui.

Aux commandes du projet, Hugh E. Williams, ancien responsable du développement de Bing,  a avoué que son équipe avait rencontré plus de difficultés dans l'utilisation d'HBase que dans celle d'Hadoop. eBay aura cependant contribué à améliorer la base de donnée en apportant des correctifs aux problèmes rencontrés. Les dernières semaines se seraient cependant déroulées sans problème techniques, selon Hugh E. Williams. Cassini devra être fonctionnel en 2012.  Le mettre en place aura mobilisé plus de 100 ingénieurs pour un effort étalé sur 18 mois.