Google Leak : avec le recul, voici les premiers vrais enseignements

L'importance du comportement utilisateur est particulièrement mise en avant par la fuite.

Rendu public le 28 mai dernier, le Google Leak concerne 2 569 documents listant 14 014 attributs. Ceux-ci ont été mis en ligne sur le GitHub de Google Content API Warehouse. Confirmée ensuite par le géant américain, cette fuite contient une longue liste d'attributs organisés et standardisés. Ils comportent généralement une petite description, un type, avec par exemple une valeur continue ou booléenne, et quelques fois des marqueurs comme "deprecated", pour "déprécié". La documentation mentionne différentes équipes de Google comme Hotels team, Ads team, Visual Shopping Team, Google Shopping Express Team, Geo Schema team, SAFT Team, GT Team, Routines team, TTS team, Paint Team, ou quality teams. Elle doit permettre aux experts de travailler sur des référentiels d'attributs communs accessibles via l'API. Les documents les plus récents datent d'août 2023.

L'UX particulièrement pris en compte

Si ces documents manquent d'informations ou de contexte, ils laissent apparaitre différentes tendances. Parmi elles, l'importance accordée par Google au comportement des internautes en général et de l'UX en particulier. "On pense par exemple à NavBoost", lance David Groult, head of SEO chez Noiise. "Il analyse le comportement des utilisations (CTR) provenant de Google Chrome pour apporter une surcouche à l'algorithme de ranking". Ce système interne est presque entièrement constitué de données provenant de clics. On y trouve par exemple le clic le plus long provenant des SERP, lorsque l'internaute clique sur un résultat et reste dessus plus longtemps. Danny Sullivan, le Search Liaison de Google, a d'ailleurs récemment répondu que le CTR n'est pas un facteur déterminant dans l'algorithme de classement de Google.

"Ces leaks tendent aussi à confirmer la prise en compte des signaux UX, comme le taux de rebond, le taux de scroll ou encore Dwell Time", indique David Groult. Ce dernier terme renvoie à la notion d'engagement sur la page. Le site pourrait être mieux classé lorsque les utilisateurs restent sur les pages plus longtemps.

"Google applique aussi la personnalisation, afin d'optimiser les résultats de recherche en fonction du comportement et du contexte de l'utilisateur", avance Olaf Kopp, responsable du référencement chez Aufgesang GmbH. "Cela implique d'adapter les scores pour différents types de personnalisation afin d'améliorer ou de dégrader les résultats de recherche."

De façon générale, David Groult pense même que tout cela "renforce la logique de la naissance d'un quatrième pilier du SEO." Olaf Kopp renchérit : "ces dernières années, les Antitrust Trials, divers brevets de Google et maintenant cette fuite montrent que les signaux des utilisateurs et donc l'UX jouent un rôle plus important que ce qui était supposé jusqu'à présent, ou communiqué par Google. On peut donc parler ici d'un pilier pour le SEO". Avant de nuancer : "Je mets toutefois en garde contre l'utilisation du terme UX comme mot-valise pour tout ce qui ne peut pas être formulé de manière plus concrète. Il convient ici de différencier les signaux d'utilisateurs qui sont saisis sur les SERPs et ceux qui sont saisis sur le site web lui-même. Le CTR des SERP n'a qu'un rapport limité avec l'UX du site web. En revanche, le comportement de défilement et le temps passé sur le site en ont un."

Notons que pour les référenceurs interrogés, la mise en avant de ces éléments par Google ne constitue pas une réelle surprise. Sylvain Peyronnet, CEO de Babbar.tech, avance : "il y a des données comportementales présentes dans la documentation. Et on sait que le moteur utilise depuis des années des algorithmes de machine learning basés sur ces données."

Ces documents pourraient ainsi apporter davantage de matière pour comprendre notamment la façon dont Google gère le comportement utilisateur pour le search. Pour Alexis Rylko, directeur technique SEO chez iProspect France, "à côté de l'importance confirmée ou reconfirmée, le souci de l'UX est qu'il reste souvent considéré comme quelque chose de subjectif. Mais les révélations récentes nous donnent plus de détails sur comment cela peut être présenté dans un format mathématique et calculable du point de vue du moteur de recherche.

N-gram Mentions, single-topicness, métadonnées étendues et statistiques des requêtes de recherche

D'autres tendances du leak sont aussi mises en avant. Olaf Klopp liste quelques autres points particulièrement intéressants. "Google utilise les N-gram Mentions pour saisir le contexte et la signification des entités au sein des textes. Ces N-grams sont utilisés pour évaluer la pertinence et le scoring des mentions. Il existe aussi des évaluations individuelles très fines de la pertinence des documents. Google évalue et sélectionne des pages de référence sur la base de différents scores, dont un de "single-topicness", qui mesure l'unicité d'un sujet au sein d'une page. Ces pages de référence jouent un rôle important dans la détermination de la pertinence d'autres contenus pour certaines requêtes de recherche. Le géant américain utilise en outre des métadonnées étendues et différentes variantes de noms pour identifier des entités et évaluer leur pertinence. On peut également noter que Google suit les statistiques des requêtes de recherche afin de mieux comprendre la popularité et la pertinence des documents. Ces statistiques aident à déterminer la pertinence d'un document par rapport à différents termes de recherche. "

Plusieurs approches pour faire parler ces documents

Comment les SEO sont arrivés à ces résultats ? Différentes méthodes ont été appliquées par les référenceurs sondés. "Personnellement, je procède laborieusement", explique Sylvain Peyronnet. "Je lis module par module et je crée la hiérarchie des relations entre les fonctions et les modules. Pour chaque fonction, je cherche la littérature technique et scientifique pour comprendre de quoi il s'agit, quand c'est possible. Puis, je créé une liste de tout ce qui pourrait être un signal SEO. Ensuite, il est possible d'utiliser des prédicteurs, au sens du machine learning." Indiquons que ces derniers, constitués de variables, sont utilisés pour construire des modèles permettant de prédire une autre variable. "Cela sert à voir quels signaux permettent de reproduire les SERPs de Google, donnant ainsi une liste de signaux actionnables pour le SEO", renchérit Sylvain Peyronnet. "C'est déjà ce que font les outils prédictifs développés par certains acteurs du SEO, mais là le process serait nourri de la data venant du leak."

De son côté, Alexis Rylko part des connaissances factuelles sur la fuite. Puis il recherche un objectif précis, si possible en lien avec des intérêts de performance, académique ou de R&D. Par exemple, essayer de comprendre de manière plus détaillée comment Google peut évaluer le titre des pages. Il recommande aussi de s'attarder sur certaines des pages les plus importantes du leak. Et, comme Sylvain Peyronnet, de comparer les informations avec les documents issus du procès antitrust en cours, et avec le guidelines pour quality raters. "JR Oakes de Locomotive Agency a créé, par exemple, un mini-moteur de recherche utilisant comme base de connaissances les brevets, documents de Google Leak et ceux issus du process antitrust. Une fois identifiés les attributs pertinents, on peut passer aux tests et évaluer l'impact sur les indicateurs SEO de performance. En réalité, c'est plus facile à dire que de faire. Mais on peut déjà commencer par les attributs de type booléen, avec "oui" ou "non", qui sont plus faciles à tester. Il y en a un certain nombre dans la documentation."

Olaf Kopp a de son côté construit un GPT personnalisé. Son but est de pouvoir tirer directement des insights des données de la fuite grâce à une base de données de centaines de brevets et d'articles actifs liés à la recherche.