SEO : comment la data permet de révéler les erreurs… et les opportunités

SEO : comment la data permet de révéler les erreurs… et les opportunités L'exploitation des données pour améliorer le référencement était l'un des thèmes majeurs du SEO Camp'us. A la clef, deux retours d'expérience instructifs, dont celui de Priceminister.

L'explosion des données concerne aussi le SEO, et l'exploitation de ce gisement commence à murir et à fortement impacter le pilotage du référencement. C'est l'un des enseignements que l'on peut tirer du SEO Camp'us, événement-phare du Search Marketing qui s'est tenu les 9 et 10 mars 2017 et dont le JDN était partenaire.

"Les données peuvent provenir de Google et de ses outils, comme sa Search Console. Mais il y a aussi les outils tiers, comme Botify, Yooda ou Majestic qui peuvent fournir encore plus de data. Croiser puis exploiter toutes ces données permet de sortir d'une logique empirique pour bâtir des stratégies data- driven", observe Olivier Tassel, consultant chez Netbooster, lors de sa conférence justement basée sur ce thème ("Du SEO empirique au SEO Data centric : comment piloter sa stratégie en 2017 ?"). Ce spécialiste note également que toutes ces données peuvent être surveillées grâce à des solutions de dashboarding personnalisables très souples et puissantes, voire open source, comme Superset, mise au point par Airbnb. Surtout : habilement exploitées, toutes ces données peuvent nourrir des systèmes de machine learning, et ainsi, ouvrir la voie au prédictif.

Une dataviz pour détecter un dysfonctionnement

Pour prendre un exemple d'abord basique, les données issues d'un outil utile au SEO peuvent être exploitées par une solution de dataviz afin d'attirer vite l'attention sur un problème majeur. Le cas a été présenté par Simon Georges, consultant chez Makina Corpus. Cet expert SEO et Drupal a d'abord utilisé l'outil de crawl Screaming Frog pour parcourir un site comme le ferait Google. Screaming Frog a notamment listé les URL parcourues au sein de ce site. Cette liste a ensuite été uploadée dans l'outil open source de dataviz Gephi. Et là, surprise : si le site est censé comporter trois sections, une 4e est apparue de manière très claire sur le graphique. Réaction du propriétaire du site : "cela ressemble à une tumeur". Et c'est à peu près cela, en effet.

Dataviz réalisée par Gephi qui montre bien 4 couleurs correspondant aux 4 parties d'un site... qui est censé n'en que compter que 3 ! © Simon Georges

Ce qu'il s'est passé, c'est que sur la home du site figurait un agenda des événements. Sur cet agenda, il y avait, de manière tout à fait classique, un lien "mois suivant", et "mois précédent". Le crawler s'est engouffré dans ces liens sans fin. Il est remonté des dizaines d'années en arrière, et la même chose en avant. C'est cette 4e section du site, qui apparait de manière très visuelle (en violet ci-contre)dans Gephi, et qui correspond donc en fait à… un agenda. "Lorsque le vrai crawl du robot de Google a ensuite été étudié, il a été confirmé qu'il prenait exactement le même chemin que le robot de Screaming Frog. Google perdait donc son temps à crawler des pages sans aucun intérêt, alors que d'autres pages à fort potentiel SEO étaient négligées voire pas du tout explorées !", pointe Simon Georges.

Du SEO prédictif chez Priceminister

Il y a aussi des exemples beaucoup plus avancés en matière d'exploitation des données, et tendant vers le prédictif. La SEO de Priceminister, Cécile Beroni, a notamment partagé ses travaux sur le terrain du big data. Son environnement est celui des sites à forte volumétrie, avec un site comptant pas moins de 24 millions de pages, dont 17 millions indexées dans Google. Evidemment, le SEO est hautement stratégique, avec 30 à 40% de visites SEO (hors requêtes dites "de marque", navigationnelles).

Cécile Beroni, SEO de Priceminister au SEO Camp'us 2017. © JDN

"Nous voulions exploiter les données disponibles d'abord pour améliorer l'indexation par Google. L'objectif était plus précisément d'augmenter le nombre de pages indexées ou d'améliorer la rotation des URL crawlées", résume la SEO. Pour ce premier chantier, le crawl de Google est étudié en profondeur, et les modifications apportées au site pour mieux guider les robots de Google ont permis de beaucoup mieux prévoir les pages qui seront parcourues. Un algorithme maison, confidentiel, a été mis au point.

"Nous connaissons désormais 80% des URL que va crawler Google, alors qu'au début c'était 61%", raconte la SEO. "Au final, le nombre de pages crawlées n'a pas vraiment augmenté. C'est surtout la rotation des URL parcourues qui a été améliorée." Priceminister peut ainsi "pousser" et mettre en cache un million d'URL stratégiques – un chiffre qui est lié à la limite de leur solution gratuite de cache, Varnish. "Auparavant, Google pouvait mettre plus de six mois à parcourir tout le catalogue, désormais Google peut accéder à un plus grand nombre d'URL en un temps assez réduit. Cela a été nos débuts", se souvient Cécile Béroni.

Ensuite, une meilleure prédiction des mots clés stratégiques, les "top keywords", a été visée. Pour ce chantier, le site a pu s'appuyer sur une équipe interne (SEO, business intelligence, big data) mais aussi sur un prestataire externe, Authoritas, qui lui fournit de très nombreuses données. Parmi ces dernières : les mots clés sur lesquels Priceminister était positionné, avec leur volume de recherches et les concurrents qui figurent aussi sur leurs résultats de recherche, entre autres. "Il fallait faire ressortir des opportunités", commente la SEO. Elles ont pris la forme d'une liste assez brute de 2,4 millions de mots clés que le site marchand pouvait viser.

"Il a ensuite fallu travailler sur la liste en répondant à plusieurs questions : a-t-on le produit concerné par le mot clé ? Quelle est la compétition pour ce mot clé, la présence de Google Shopping pouvant donner aussi des indices intéressants pour cette question", détaille l'employée de Priceminister. Une fois ces filtres réalisé, 1,4 million de nouvelles landing pages ont été créées ou enrichies. Le résultat annoncé par le site marchand est spectaculaire : 40% de visibilité en plus sur les résultats remontés par Google, d'après l'outil Searchmetrics.

Et aussi

Priceminister / Référencement

Annonces Google