La France met le cap sur le Big Data PagesJaunes.fr : mieux cibler les recherches mal catégorisées

Sur un annuaire comme PagesJaunes.fr (Solocal Group), la gestion des recherches mal catégorisées par l'internaute représente un véritable défi.  "Si un visiteur tape 'acacias' à 'Toulouse', on peut penser qu'il veut acheter des acacias. Il peut aussi vouloir connaitre l'adresse d'un restaurant appelé Les Acacias", note Lan Anh Vu Hong du cabinet de conseil fifty-five qui a accompagné le projet. Dans le premier cas, le terme acacias devra être vu comme un objet, dans le second comme le nom d'une entreprise.

'la correction des requêtes mal catégorisées est un enjeu majeur pour
"La correction des requêtes mal catégorisées est un enjeu majeur pour l'annuaire, et pour les professionnels répertoriés, puisque 74 % des recherches effectuées sur PagesJaunes.fr aboutissent à un contact professionnel physique." © Capture JDN

D'où l'enjeu de repérer ces recherches pour ensuite les corriger, et ainsi apporter à l'utilisateur le meilleur confort possible. Mais comment savoir ?

Face à cette problématique, fifty-five s'est lancé dans la conception d'un modèle de prédiction permettant d'automatiser le repérage de ces requêtes. En amont,
3 téraoctets de logs, issus de l'outil de suivi d'audience
AT Internet utilisé par PagesJaunes.fr, ont été analysés. 

Une DMP basée sur HBase / Hadoop

"L'importance du volume de logs à traiter nous a amené à choisir HBase et Hadoop pour la mise en place d'une Data Management Platform", explique Lan Anh Vu Hong. Sur la base des principales variables de recherche (nombre de fois qu'une requêtes a été affinée, temps de réponse...), les équipes de fifty-five réalise en amont un travail manuel, visant à définir des types de requête posant problème. "Trois mille requêtes ont ainsi été traitées manuellement : 70% pour l'apprentissage pur, et 30% pour l'évaluation de la performance du modèle", détaille Lan Anh Vu Hong.

Ces associations sont confiées ensuite à un moteur d'apprentissage visant à aboutir à un modèle prédictif. Une technologie qui fait appel au langage de traitement statistique R, avec à la clé une parallélisation des traitements. Objectif : analyser l'historique de 6 mois de logs stockée dans l'entrepôt, et "obtenir un nombre d'occurrences suffisant pour aboutir à une analyse statistiquement significative". En aval, une interface de datavizualisation est élaborée en mode Web (HTML5 et D3.js), avec l'utilisation de cross-filters pour personnaliser les résultats. Au final, le dispositif se révèle 10 fois plus efficace que le précédent pour repérer les requêtes mal-catégorisées.

"Les projets dérivés de cette mission sont multiples. L'architecture peut permettre potentiellement d'envisager une personnalisation des résultats, une évolution du système de monétisation de PagesJaunes ou encore la prise en compte de nouveaux critères pour le classement des blocs-réponses", se félicite-on chez  fifty-five.