Google leak : les référenceurs curieux, mais prudents

Quelques jours après la fuite sur l'algorithme de Google, les référenceurs interrogés prennent du recul par rapport aux informations dévoilées, mais les regardent de près.

Quelques mois après Yandex, c'est au tour de Google d'être victime d'une fuite de grande ampleur. Elle provient du partage par une source anonyme de plus 2 500 pages le 5 mai dernier à Rand Fishkin, cofondateur de SparkToro. Les documents proviendraient du Content API Warehouse interne de Google. La source, dont l'identité a été finalement révélée, a affirmé à l'ex-fondateur de Moz que ces documents avaient été authentifiés par d'ex googlers, qui avaient ajouté d'autres informations. L'auteur de cette fuite, un certain Erfan Azimi, PDG et directeur du référencement d'EA Eagle Digital, a même récemment publié une vidéo, où il explique ne "pas avoir de motivation financière" et vouloir faire éclater la vérité sur les mensonges de Google.

Un fuite qui dépasse le search de Google

Les informations révélées nous apprennent que la fuite est particulièrement sérieuse. Les documents partagés sont très denses et techniques. Ils dévoilent des indications importantes sur le fonctionnement de l'algorithme de Google. "Mais le leak ne concerne pas seulement le moteur classique", précise Olivier de Segonzac, associé fondateur de Resoneo. "Il existe également des informations sur Youtube, Google Assistant, ou encore le Social Graph. Il nous offre aussi une vision macro des services de ranking internes à Google comme Trawler, Alexandria, Superroot ou Mustang, des fonctions de re-ranking Twiddlers comme le fameux NavBoost, qui y est cité des dizaines de fois."

Andrew Shotland, SEO du site localseoguide.com, a d'ailleurs injecté les documents dans ChatGPT pour en faire un résumé dans un Google Sheet. De leur côté, Mike King, fondateur d'iPullRank, et Rand Fishkin ont commencé à analyser ces documents, et montré notamment des pratiques internes de Google qui contredisent ses déclarations publiques.

Par exemple, alors que Google déclare depuis des années ne pas se servir du domain Authority, les documents montrent que Google dispose d'une fonctionnalité appelée "siteAuthority". Mike King déclare que, si on ne sait pas comment cette mesure est calcule ou utilisée, on sait avec certitude qu'elle sert dans le système de classement Q*.

La firme de Mountain View explique aussi qu'elle n'utilise pas de clics pour faire ses classements de SERP. Mais la fuite révèle que le système Navboost dispose d'un module spécifique entièrement axé sur les signaux de clic. Navboost serait d'ailleurs l'un des signaux de classement les plus puissant de Google, d'après différentes sources.

Concernant la sandbox, inexistante selon Google, il s'avère que dans le module PerDocData, la documentation indique un attribut appelé hostAge qui est utilisé spécifiquement "pour mettre en sandbox les nouveaux spams pendant la durée de diffusion".

Autre point à noter, alors que le groupe américain déclare ne pas utiliser les données de Chrome pour le classement, il semblerait qu'il utilise les flux de clics de son navigateur pour améliorer ses résultats de recherche.

Beaucoup de nouveautés pour les SEO

Du côté des SEO interrogés, certains éléments étaient déjà plus ou moins connus. "C'est pour moi évident que l'algorithme de classement est influencé par les comportements des utilisateurs via le système NavBoost, y compris les clics et interactions post-clics", lance par exemple Emmanuel de Vauxmoret, CEO d'Uplix.

D'autres constituent en revanche des nouveautés. Pour Olivier de Segonzac, "pour donner quelques exemples : Google peut extraire plus de 300 meta données sur les images, certaines pages web lorsqu'elles sont précieuses sont flaguées "golden", tandis que certains sites deviennent des "Gobi" lorsqu'ils font autorité sur leur catégorie. On découvre aussi que Google suit une population de "unicorn users", dont les clics pourraient être surpondérés dans le NavBoost. On en apprend également beaucoup sur les systèmes de rétrogradation avec notamment un certain "baby panda", dont certains se demandent s'il ne s'agit pas de la Helpful Content update.

Autre découverte, pour Laurent Jean cette fois-ci, celle de l'indicateur spécifique "small personal site". Pour Mike King, il n'existe pas de définition de tels sites. "Le classement dans cette section pourrait expliquer la disparition de certains sites sur des requêtes, qui ont un excellent contenu, mais pas assez de signaux comme les backlinks et du boost CTR pour exister", souffle Laurent Jean.

Croiser les informations et connaitre les signaux

Habitués à la communication opaque de Google sur son algorithme, les SEO interrogés prennent du recul par rapport à cette fuite.

Laurent Jean déclare : "pour l'instant, j'ai l'impression que l'on a un environnement de test de Google qui pourrait être utilisé pour faire des simulations. Vu que c'est des champs d'appel API, nous voyons des variables, mais pas dans quel contexte elles sont utilisées. Nous n'avons pas les valeurs possibles et leur impact. Maintenant, il va falloir croiser plus attentivement, ce qui a été dit lors du procès de Google avec cette API."

De son côté, Philippe Yonnet, président du groupe Neper, voit dans cette fuite la possibilité de mieux connaitre certains signaux de Google. "En soi, c'est intéressant, car cela permet d'accéder à quelques détails nouveaux sur les signaux disponibles. Mais c'est tout. Et toutes les conclusions que Rand Fishkin tire de ces documents sur le fonctionnement de Google Search vont, à mon avis, faire sourire les ingénieurs de Mountain View."

Google a d'ailleurs récemment minimisé la fuite via un porte-parole. Ce dernier a notamment évoqué le manque de contexte, l'obsolescence et l'insuffisance des informations dévoilées. "Nous avons partagé de nombreuses informations sur le fonctionnement de la recherche et les types de facteurs que nos systèmes prennent en compte, tout en nous efforçant de protéger l'intégrité de nos résultats contre les manipulations".

Nul doute que les interprétations, hypothèses et autres tests effectués par les SEO dans les semaines à venir pourraient permettre d'en savoir plus sur la pertinence de ces documents.