SEO : utiliser la data comme moteur de la stratégie de contenu

Augmenter leurs chances de positionnement en associant notamment les données d'audience à des analyses sémantiques massives, voilà le quotidien des experts de la data au service du contenu.

Tout l'art du SEO est d'aller plus loin que ses concurrents sur un ou plusieurs critères, mais sans franchir la ligne qui enclenche une sanction. C'est un travail d'équilibriste, d'autant plus subtil sur le terrain du contenu où le choix des mots est vaste mais crucial. L'intégration massive de données dans l'ensemble du process peut faciliter le travail des référenceurs et améliorer progressivement l'efficacité de la stratégie de contenu. Voici les quatre étapes de la production de contenu, chacune assorties d'un support data.

Le bon ciblage

A l'heure de mettre en place sa stratégie de contenu, connaître la thématique de son site ne suffit pas. Il faut surtout viser juste en choisissant des sujets en ligne avec les intentions de recherche des internautes. Pour Sylvain Peyronnet, cofondateur et dirigeant de Ix-labs, "la data est alors mixte. Elle vient d'abord de ce qui existe sur le site : l'analyse des visiteurs/clients et des contenus déjà publiés. Il faut déterminer à quels besoins informationnels ils donnent déjà des réponses. Ensuite, il y a la data de la "cible" que constitue le moteur de recherche, en l'occurrence Google".

Et pour récupérer toutes ces informations, Sébastien Monnier, fondateur de l'agence d'analyse de data Woptimo, recommande de "se baser sur les données de Google Analytics (pages vues, taux de rebond, utilisateurs engagés) et de la Search Console, pour vérifier l'adéquation entre le trafic, les intentions de recherche et la structure du site". Quant aux données issues des moteurs de recherche "un audit lexical classique va permettre à partir de différentes sources de data d'identifier des intentions de recherche ou des expressions-clés à attaquer ou à défendre". Là, ce sont des outils comme Google Ads, SEMrush ou Yooda Insight, par exemple, qui peuvent servir, avec des metrics sur le volume d'impression et la concurrence.

Une rédaction optimisée

Une fois déterminés les sujets à traiter pour atteindre les mots-clés stratégiques, il faut rédiger des contenus optimisés pour le moteur de recherche. "Il y a deux types de données qu'il faut utiliser en "concurrence", explique Sylvain Peyronnet : la data de la SERP visée, c'est-à-dire les contenus des concurrents, et une data d'un corpus générique de la langue", pour comprendre quel langage est attendu sur cette thématique par le moteur de recherche.

Ce corpus générique est issu d'un crawl massif de plusieurs centaines de millions de pages, nettoyé pour supprimer les résidus "spammy". L'objectif est de collecter des utilisations courante de tous les mots de la langue visée. Ce gros corpus est ensuite comparé à un autre plus petit et spécifique, portant sur la thématique sur laquelle on souhaite se référencer. "Beaucoup de mots ont un usage différent dans la langue courante et dans le langage technique lié à un contexte spécifique", explique Sylvain Peyronnet. Par exemple, les mots "lien" ou "ancre" n'ont pas le même sens selon qu'ils sont utilisés dans un contexte courant ou dans une conversation entre référenceurs. "C'est ce que nous appelons le corpus différentiel. Il sert à mesurer la différence entre les deux utilisations des mots, et donc, à comprendre comment le moteur de recherche les perçoit dans le contexte qui nous intéresse". Des outils d'analyse sémantique comme YourTextGuru ou Métamots reposent sur cette méthodologie.

Un maillage interne cohérent

La data peut également donner un coup de pouce à la construction du maillage interne : "Il s'agit alors simplement de faire des liens à l'intérieur du site qui soient le plus cohérents possible sémantiquement, tout en préservant le transfert de popularité", précise Sylvain Peyronnet. Pour ce faire, il faut calculer la proximité sémantique entre les pages. Les référenceurs peuvent se baser sur un outil permettant de calculer le vecteur sémantique, comme la bibliothèque de Facebook, Fast Text. Ils vont alors obtenir un indice de distance entre les mots. Autre possibilité, "certains utilisent YourTextGuru pour créer un champ lexical référent sur la page qu'ils veulent évaluer, puis le comparent avec d'autres pages", relate Sylvain Peyronnet.

Evaluer le contenu

L'étape la plus importante reste la dernière. "L'utilisation des données après la rédaction et la publication pour mesurer l'efficacité en termes de position, de gain de backlinks et évidemment en conversions et chiffre d'affaires va permettre d'orienter la stratégie", assure Sébastien Monnier. Lui-même croise quatre types de données pour réaliser cette analyse de façon exhaustive.

Les données sociales et de liens, avec des outils comme Facebook Insights, Buzzsumo ou des outils d'analyse de backlinks comme Ahrefs ou Majestic. Ils permettre non seulement de mesurer l'impact d'un contenu au niveau social (nombre de partages, de backlinks...) mais aussi de mieux comprendre l'environnement dans lequel le contenu a été consommé.
Les données de position sur les moteurs, issues d'outils externes comme Yooda, Myposeo, Ranxplorer, etc, et évidemment la Search Console. Par exemple elles permettent de connaître le nombre de mots-clés positionnés dans le top 10, dans le top 3... "Attention, cependant, l'agrégation de ces données doit toujours se faire avec précaution et à périmètre constant", alerte le spécialiste de la data.
Les données linguistiques sur la qualité du contenu. Sébastien Monnier utilise Semanteecs, un outil développé en interne, pour la génération des champs lexicaux, mais d'autres outils comme 1.fr ou seoquantum fournissent aussi des données adéquates.
Les données fournies par le CMS. Date de publication, date de dernière modification, nombre de mots, nombre d'articles dans telle catégorie, ... ces éléments "qui devraient être si simples d'accès et utilisés dans tout bon reporting de stratégie de contenu sont bien souvent oubliés ou, en tout cas, trop faiblement modélisés", regrette Sébastien Monnier.

Pour Sylvain Peyronnet, les données utilisées par les moteurs pour évaluer la qualité du contenu viennent "du contenu des pages web, mais aussi d'un jugement humain, le quality rating. Et à partir de là, un algorithme prédit la perception humaine en terme de la qualité". L'objectif est donc, "d'un point de vue SEO, de coller le plus possible à un contenu algorithmiquement qualitatif". L'algorithme constitue des "cluster qualitatifs" de ce que les humains attendent. Bien que les détails n'en soient pas connus, des signaux permettent de s'en faire une idée "comme le taux de compression d'un document texte", illustre Sylvain Peyronnet. "Plus le vocabulaire d'un texte est varié, plus ce taux est bas. S'il est haut, le texte est trop pauvre. Mais s'il est trop bas, le texte est peut-être aussi de mauvaise qualité, car artificiellement gonflé. Trop de variété n'est pas non plus ce qu'attend le moteur de recherche". Il y a une fourchette de valeur intermédiaire qui correspond à ce qu'il attend en termes de qualité.