Dossier SEO : comment PagesJaunes.fr s'est ouvert à Google
Beaucoup de choses ont changé chez Pages Jaunes, rebaptisé Solocal, en l'espace de quelques années. Notamment en matière de SEO. Si, auparavant, le site empêchait carrément les robots de Google d'indexer son contenu, il cherche aujourd'hui à mieux les faire venir. Ce qui n'est pas une mince affaire pour un site de l'envergure de PagesJaunes.fr et sa dizaine de millions de pages.
D'ailleurs, une fois que les robots ont pu librement crawler le site, et que leur parcours a pu être analysé dans les logs, une des premières choses qui a été faite a été... de supprimer de l'index de Google de nombreuses pages : 6 millions d'URL en tout. Il s'agissait "de pages vides, ou sans intérêt pour l'internaute, qui ralentissaient les robots de Google, et qui empêchaient le moteur d'aller parcourir et indexer du contenu plus intéressant", explique Jean-Benoit Moingt, responsable SEO pour le groupe Solocal.
"Réduire les temps de réponses des pages améliore le volume de crawl des robots"
Optimiser l'indexation de Google
L'un des défis auxquels est aujourd'hui confrontée la cellule en charge du SEO de PagesJaunes.fr est justement d'optimiser cette indexation. Le maillage interne (soit tout de même 400 millions de liens, et encore, après, là aussi, un travail conséquent de réduction) a été particulièrement travaillé pour optimiser le crawl des robots, et leur permettre d'atteindre du contenu auparavant trop enfouis. La vigilance s'est notamment portée sur la cohérence thématique des pages liées par ces liens.
Le temps de chargement des pages a aussi été travaillé car "réduire les temps de réponse améliore sensiblement le volume de crawl des robots, la corrélation est évidente", confirme Jean-Benoit Moingt, qui ne donne là qu'un des leviers actionnés pour optimiser l'indexation. Car le but est aussi de pousser dans Google les contenus qui ont le meilleur potentiel en SEO. Là encore, pas simple : PagesJaunes.fr a dû sortir l'artillerie lourde, Big Data et machine learning, pour répondre à cet enjeu.
Big Data et machine learning pour doper le SEO de Pagesjaunes.fr
Le Big Data, c'est bien ce qu'il faut face à cet enjeu et à l'immensité des possibilités. Il y a plus de 36 600 communes couvertes, qui peuvent chacune être associée à des professions : les combinaisons sont presque infinies. Et elles correspondent justement aux requêtes que peut viser PagesJaunes.fr.
En effet, le site dispose, ou peut créer, des "listes de réponses" pour ce type de requête (par exemple "médecin à Paris"). Déterminer lesquelles de ces listes il faut pousser dans l'index de Google (en mettant des liens, depuis les pages bien indexées vers les pages à indexer) a nécessité de passer par de l'Hadoop, avec à la clé du Pig et du R, et les technologies constitutives du Big Data. Le but étant de choisir parmi les millions de combinaisons, les pages de liste de réponses qui ont le meilleur potentiel en matière de SEO et trafic.
Le choix des pages à indexer passe par une analyse qui prend en compte de nombreux critères, comme les statistiques des pages similaires déjà indexées, et la satisfaction des utilisateurs, via un système de machine learning développé en interne. Plusieurs indices de satisfaction sont pris en compte : le comportement et les clics des utilisateurs sur le site, lorsqu'ils demandent le numéro de téléphone, ou lorsqu'ils ne réutilisent pas le moteur de recherche interne 2 secondes après l'avoir utilisé par exemple...
Autre défi SEO : "combler les trous dans la raquette"
Avant de pousser des pages dans l'index de Google, des problèmes de nomenclature peuvent aussi apparaître, en partie dus à l'héritage de l'annuaire imprimé. Les termes utilisés dans ce dernier ne sont parfois pas les plus intéressants en termes de SEO. Il faut alors renommer les pages, et parfois même les créer dans le cas de nouvelles activités absentes de l'annuaire en papier ("magasin de cigarette électronique" par exemple). "Cela permet de combler des trous dans la raquette", résume Jean-Benoit Moingt.