Fuite de données chez Google : que faut-il en retenir ?

La fuite des données de Google a secoué la communauté SEO. Mais que penser de ces documents qui révèlent les rouages de l'algorithme ?

Fuite de données chez Google : les secrets de l’algorithme révélés ?

Coup de tonnerre parmi les référenceurs : le 5 mai 2024, plus de 2 500 pages tirées de documents internes à Google ont été divulguées, offrant une plongée inédite dans les méandres du fonctionnement de l’algorithme.

C’est, sans conteste, la fuite la plus importante qu’ait jamais connue la firme de Mountain View, et ce, quelques mois seulement après la mésaventure du concurrent russe, Yandex. Un mois après les faits, l’euphorie des premiers temps a laissé place à la prudence au sein de la communauté SEO : les experts exhortent les webmasters a ne pas s’emballer, et à attendre des analyses plus poussées des fameux documents.

Alors, les Google Leaks sont-elles l’événement de la décennie… ou un pétard (digital) mouillé ?

La plus importante fuite de données de l’histoire de Google

Le récit est digne d’un film d’espionnage. Début mai, Rand Fishkin, cofondateur de Moz et de SparkToro – surnommé le « Wizard of Moz » dans le milieu – reçoit un email d’une source anonyme affirmant détenir des documents internes de Google.

Fishkin retient son souffle : si ces pages sont authentiques (ce que la source certifie), cela pourrait bien être un WikiLeaks digital.

Car les informations contredisent les déclarations publiques faites par la firme au fil des années, par exemple concernant l’utilisation des signaux de clics ou l’influence de l’autorité.

Mais avant toute chose, il faut s’assurer de leur validité. C’est ce que fait Fishkin, d’abord sceptique, en s’entretenant avec la source par visioconférence, qui lui présente les documents provenant du « Content API Warehouse » interne, captés à la suite d’une erreur de dépôt de code.

Puis, en contactant une batterie de spécialistes (des anciens de Google ainsi que le fondateur d’iPullRank, Mike King) qui, tous, avalisent l’origine des documents.

Plus tard, la source décide de révéler son identité : il s’agit d’Erfan Azimi, expert SEO et CEO d’EA Eagle Digital.

Celui-ci a expliqué n’avoir aucun motif financier et vouloir simplement mettre au jour les « mensonges » propagés par Google dans le cadre de sa communication sur le fonctionnement de son algorithme. Pour autant, ces informations sont-elles réellement pertinentes ?

Un trésor pour mieux comprendre les rouages de l’algorithme de Google

La plongée dans les 2 500 pages révélées par Erfan Azimi et Rand Fishkin n’est pas de tout repos. Ces documents, techniques et denses, s’avèrent particulièrement difficiles à déchiffrer et laissent planer le doute sur un grand nombre d’indicateurs propres au moteur de recherche.

Mais pas seulement : on y trouve aussi des données concernant d’autres plateformes de l’écosystème Google, à l’image de YouTube ou de Google Assistant, ainsi que sur des services internes comme Alexandria, Mustang, Superroot, Trawler ou Twiddlers. Que peut-on en retenir ?

Google pris la main dans le sac : les informations qui contredisent ses déclarations

Commençons par les données qui remettent en cause les déclarations faites ces dernières années par Google au sujet du fonctionnement de son algorithme de classement.

L’influence des clics sur le classement des pages : le système Navboost (l’un des plus puissants de Google, au passage) intégrerait un modèle dédié à la prise en compte des signaux liés aux clics. Cette information avait déjà fuité lors du procès anti-trust de Google, et les référenceurs soupçonnaient depuis bien longtemps le rôle du comportement des utilisateurs dans l’affaire (les clics, mais aussi les interactions qui les suivent). Les documents confirment ce qui était jusque-là un secret de Polichinelle, mais l’on en sait un peu plus : Navboost tiendrait compte du nombre de clics sur un résultat, mais également de la longueur du clic. (La notion de clic « court » ou « long » se réfère au temps passé sur la page ouverte par l’utilisateur ayant cliqué sur un résultat.) En outre, le système segmenterait les données en fonction de la position géographique – pays et état – et de l’appareil utilisé.
L’importance de l’autorité du domaine. L’entreprise a beau claironner le contraire depuis des années, l’algorithme s’appuie bel et bien sur l’autorité via sa fonctionnalité « siteAuthority », dont on ignore encore l’influence concrète sur le classement. Pour certains, néanmoins, c’est une fausse information : selon Trevor Stolber, le « domain authority » ne serait rien d’autre qu’une variante du PageRank. Ce qui voudrait dire qu’il n’y a rien de nouveau sous le soleil.
L’existence d’une « sandbox » pour les sites nouvellement publiés. La présence d’un attribut « hostAge » tend à démontrer qu’il existe une différenciation des sites en fonction de leur âge ou du manque de signaux de confiance, différenciation qui a pour conséquence une sorte de « délai de carence » avant qu’un nouveau domaine ne soit pris en compte dans le classement. Dans les faits, cela aurait pour effet de limiter le positionnement des sites les plus récents sur des mots-clés concurrentiels.
L’utilisation des données de navigation issues de Chrome pour améliorer les résultats de recherche – ce que Google a toujours nié avec force. Cela ferait bien de Chrome une sorte de mouchard, capable de montrer du doigt les sites qui reçoivent peu de visites… ce qui occasionne probablement leur déclassement. Avec plusieurs critères pris en compte, comme le nombre de clics, bien sûr, mais aussi le temps passé sur les pages ou le taux de rebond. D’où l’intérêt de travailler sur l’expérience utilisateur !

Google mis à nu : d’autres données concernant l’algorithme

De nombreuses autres indications ayant fuité donnent des informations importantes, certaines qui étaient jusque-là ignorées des référenceurs, d’autres qui faisaient l’objet de débats intensifs au sein de la communauté. Quelques exemples parmi les plus notables :

Le classement des index de liens en trois niveaux, en fonction de la qualité (faible, moyenne et élevée). Ce classement est déterminé grâce aux données de clic, selon qu’un lien reçoit ou non des clics de la part des internautes.
Une prime à la fraîcheur octroyée par Google : un contenu nouvellement mis en ligne bénéficie d’un « boost » d’indexation durant un certain temps.
Des « listes blanches » sont utilisées pour filtrer les résultats associés à des secteurs sensibles, ayant trait à la santé, aux élections ou au tourisme (les documents n’expliquent pas pourquoi le secteur du voyage est concerné). Ces filtres de qualité ont notamment été employés durant la pandémie de Covid pour tâcher de diffuser des informations sûres. Le but ? Garantir la fiabilité des réponses afin de bannir toute propagande.
Les éléments mis en avant par les Quality Raters dans le cadre de leur mission d’évaluation sont bel et bien utilisés pour le classement, via une plateforme nommée « EWOK ». En substance, cela signifie que les scores attribués aux sites web par les Raters peuvent influer directement sur l’algorithme. Quant aux signaux EEAT (Expérience, Expertise, Autorité et Confiance), si leur intérêt reste à démontrer, il semble que Google soit bien capable d’identifier les auteurs des contenus et de les reconnaître comme des entités à part entière.
Le système Mustang tient compte d’un nombre limité de tokens dans les contenus. Autrement dit, il semblerait que les informations présentes dans un contenu ne soient plus prises en compte au-delà d’une certaine taille… sans que l’on n’ait la moindre idée du nombre de tokens pris en considération. Cela confirmerait la pertinence de la structure en « pyramide inversée » qui consiste à placer l’information la plus importante au début d’un contenu.
Plusieurs dégradations algorithmiques sont mentionnées : pour la mauvaise correspondance des ancres ; en cas d’insatisfaction des internautes ; en cas de mauvaises pratiques de navigation ou de problèmes relatifs à l’expérience utilisateur ; lorsque les avis clients sur des produits sont trop récents ; pour les contenus réservés aux adultes ; etc.
Des indicateurs spécifiques sont employés pour des contenus de type YMYL (Your Money, Your Life), qui ont trait à la santé ou aux finances des utilisateurs. Ils permettraient également de prédire l’apparition de nouvelles requêtes relevant des YMYL.

On trouve enfin des données ambiguës, qui doivent faire l’objet de recherches plus approfondies. Citons…

La possibilité qu’aurait Google d’extraire plus de 300 métadonnées des images.
L’existence d’un filtre « Baby Panda » qui pourrait renvoyer à la mise à jour d’un contenu (il s’agirait d’une fonction de re-ranking, utilisée à la suite du classement initial d’une page). Rien n’interdit de penser que le terme désigne tout simplement la mise à jour Helpful Content de 2022.
Des qualifications mystérieuses pour les pages web particulièrement pertinentes dans leur domaine (« Golden »), pour les sites qui font autorité (« Gobi ») et pour certains utilisateurs dont les clics seraient surpondérés (« Unicorn Users »).

Pour les plus intéressé(e)s d’entre vous, Andrew Shotland a demandé à ChatGPT d’éditer une feuille de calcul afin de résumer les informations issues des documents de la fuite. Elle synthétise l’essentiel des indicateurs de classement révélés à cette occasion.

Que faire des données issues des Google Leaks ?

Il était inévitable que Google réagisse à cette fuite. C’est ce qu’a fini par faire le porte-parole du groupe, Davis Thompson, en minimisant la portée de l’événement.

Thompson a recommandé au public d’éviter de faire de « fausses suppositions au regard du fonctionnement du Search de Google sur la base d’informations hors contexte, incomplètes ou obsolètes », et a renvoyé la communauté aux données publiquement partagées ayant trait aux critères de classement.

Une façon de dire que les guidelines officielles restent les seules données viables pour référencer correctement les sites web.

Cette prise de position n’étonnera pas les connaisseurs, habitués à l’opacité qui entoure le fonctionnement de l’algorithme – et qui sert les intérêts de Google. Mais, dans le même temps, plusieurs référenceurs ont émis des doutes quant à la validité des informations divulguées début mai :

Les données proviennent d’une API utilisée en interne et non de l’algorithme lui-même. Par ailleurs, le code est obsolète.
De nombreux éléments révélés par la fuite étaient déjà connus des référenceurs, ou fortement soupçonnés.
Les informations pourraient se référer à un environnement de test servant à évaluer l’intérêt de changements potentiels.
La fuite pourrait n’être rien d’autre qu’une diversion soigneusement orchestrée par Google, afin d’éloigner les regards de ses travaux sur l’IA.

En tout état de cause, il est urgent d’attendre et de ne surtout pas tirer de conclusions hâtives, jusqu’à ce que des recherches plus poussées aient fait pencher la balance d’un côté (le Mystère de l’Algorithme Révélé ?) ou de l’autre (beaucoup de bruit pour rien ?).

Dans le pire des cas, ces documents auront permis de mieux comprendre à quels signaux le moteur se réfère au moment de classer les pages web, et auront donné une meilleure idée de ce que le roi des moteurs de recherche a dans la tête.

C’est peut-être là que se situe le vrai trésor !