Yandex Data Leaks : une fuite au sein du Google russe dévoile les secrets de l'algorithme

La fuite du code source d'une partie des services de Yandex nous offre une vue imprenable sur les facteurs de classement de l'algorithme de recherche.

Yandex : les secrets de l’algorithme de recherche dévoilés

Le code source du moteur de recherche russe a fuité sur la Toile, révélant plus de 1 900 facteurs de classement utilisés par l’algorithme pour positionner les pages web dans les résultats. Un coup dur pour Yandex, mais une véritable opportunité pour les experts du SEO.

Yandex, ça vous dit quelque chose ? C’est le nom du 4e moteur de recherche le plus utilisé au monde, derrière Google, Bing et Yahoo. En Russie, c’est bien plus qu’un « simple » moteur de recherche, Yandex étant l’équivalent non seulement de Google, mais aussi d’Amazon, d’Uber ou encore de Netflix – le tout regroupé dans une seule entité. La fuite du code source d’une partie de ses services, notamment de l’algorithme de recherche, est donc un événement majeur. Pour les spécialistes du SEO, c’est aussi une occasion en or pour plonger dans les quelque 1 900 facteurs de classement révélés, et ainsi affiner leur compréhension du fonctionnement des moteurs de recherche en général… y compris de Google !

Yandex Data Leaks : de quoi parle-t-on ?

Plus de 44 Go de fichiers ont été dérobés au géant technologique russe en juillet 2022, puis partagés en ligne le 25 janvier 2023. Le code source diffusé à cette occasion appartient aux différents services de la société, en particulier son moteur de recherche, mais aussi Yandex Maps, Metrika (l’équivalent russe de Google Analytics), Market (un « Amazon-like »), une plateforme Cloud, et bien d’autres – en tout, au moins treize services du géant russe sont concernés.

Pour les experts du SEO, le gros morceau de l’affaire a trait à la révélation d’une majeure partie des critères de classement des pages web par l’algorithme du moteur de recherche.

Dans l’écosystème SEO, en effet, cette fuite de données est un événement que l’on pourrait aisément comparer à la diffusion de documents gouvernementaux secrets par WikiLeaks ou aux Panama Papers. Les informations contenues dans cette archive ouvrent une fenêtre sur l’un des plus grands mystères du référencement naturel : quels sont, exactement, les critères mis en place par un moteur de recherche pour décider qui a droit aux premières places dans la SERP (la page des résultats) ?

Pourquoi ces révélations sont importantes pour les experts SEO ?

Pour bien comprendre l’importance de cette découverte au sein de la communauté SEO, il faut rentrer (au moins un peu) dans le détail du fonctionnement d’un moteur de recherche. Celui-ci dispose d’un algorithme dont le rôle est d’explorer la multitude de pages qui existent sur la Toile, de les indexer dans une archive dédiée, et d’évaluer leur pertinence au regard des requêtes formulées par les internautes. Pour faire simple, mieux une page est « notée » par l’algorithme, et plus elle a de chances d’apparaître haut dans les résultats.

Les moteurs sont (plutôt) transparents sur leurs mises à jour algorithmiques, et ils fournissent aux webmasters une liste de bonnes pratiques à appliquer pour améliorer le score de leurs pages. Mais pour ce qui est des facteurs spécifiques de classement, c’est le brouillard – et depuis toujours. Google et consorts ne vous disent pas exactement quoi faire pour « ranker » dans la SERP. La raison est compréhensible : pour celui qui maîtrise ces facteurs, il devient possible de hacker l’algorithme pour positionner ses pages à tous les coups, ou presque.

Or le travail des spécialistes du SEO, c’est justement de déchiffrer ces critères à partir des recommandations et d’une analyse pointue des processus algorithmiques. Voilà pourquoi la révélation des facteurs de classement de Yandex a produit un tel émoi au sein de la communauté du référencement naturel.

Même si les fichiers ne sont pas récents, et en tenant compte du fait que de nombreux facteurs sont considérés comme obsolètes (et que d’autres ont certainement été ajoutés depuis), ces données offrent néanmoins une vue imprenable – et inédite – sur les secrets de l’algorithme de recherche.

Quels sont les principaux facteurs de classement sur Yandex ?

La liste complète des facteurs de classement de Yandex, issue des fichiers dérobés, a été largement partagée en ligne. Chaque critère est numéroté, nommé, décrit, associé à des auteurs, et renvoie à de la documentation interne. L’expert SEO Alex Buraks a mis en avant les points les plus notables de cette liste, le tout premier étant PageRank – oui, le même critère qu’utilise Google ! – employé par Yandex pour évaluer la pertinence des pages.

Voici une sélection des facteurs parmi les plus intéressants.

Les facteurs de classement relatifs au trafic

Le pourcentage de trafic organique (par rapport au PPC).
Le pourcentage de trafic direct dans l’ensemble du trafic entrant (le fait qu’une portion essentielle du trafic provienne de la recherche organique peut être considéré comme un problème par l’algorithme).
Le nombre de visiteurs uniques sur le site web.
Le nombre de requêtes qui concernent directement le site web ou l’URL d’une page du site.

Les facteurs de classement relatifs aux backlinks

Les backlinks, ou liens entrants, font partie des signaux les plus importants pour les moteurs de recherche, et Yandex ne semble pas faire exception. Au même titre que Google, l’algorithme dispose de filtres pour lutter contre les manipulations relatives au netlinking. Mais il tient compte également de plusieurs signaux positifs, comme ceux-ci :
L’ancienneté des liens et leur pertinence au regard du sujet de la page sont prises en compte.
Les backlinks publiés sur les pages d’accueil des domaines référents ont plus de poids que les liens issus des pages internes.
Les ancres de liens qui contiennent l’intégralité des mots-clés de la requête, idéalement dans l’ordre, sont mieux considérées.
L’algorithme tient compte du ratio de « bons » backlinks par rapport aux « mauvais » backlinks. Il n’y a pas de précisions quant à ce que serait un « bon » backlink, mais la communauté est plutôt d’accord pour désigner, par ce terme, un lien entrant naturel, c’est-à-dire un lien qui n’a pas été acheté et n’a pas fait l’objet d’une contrepartie.
Les backlinks venant de sites classés dans le top 100 du PageRank ont plus de poids.

Les facteurs de classement relatifs au contenu de la page

Les contenus de qualité favorisent le ranking de l’ensemble du site web.
L’ancienneté d’un contenu et la date de sa dernière mise à jour sont prises en compte dans le ranking.
Le nombre d’encarts publicitaires sur une page a également son importance – on peut imaginer qu’il s’agit, comme pour Google, de ne pas interrompre la lecture de l’internaute et de ne pas gêner sa consultation. Il semblerait toutefois que ce critère soit obsolète.

Les facteurs de classement relatifs aux URL

La présence de chiffres dans un URL affecte négativement le classement, tout comme le nombre de barres obliques finales (slashes).
La haute disponibilité des URL envoie un signal positif, parce qu’elle améliore la navigation (et la satisfaction) des internautes.
La présence de mots-clés dans l’URL (jusqu’à trois termes) est mise en avant, mais là encore, il semblerait que ce critère n’ait plus cours.

Les facteurs de classement relatifs au comportement des utilisateurs

De nombreux critères utilisés dans le classement des pages ont trait au comportement des utilisateurs. Le plus surprenant d’entre eux est sans doute le taux de clics (CTR), car l’importance donnée à ce dernier interroge sur la place de ce même facteur dans les algorithmes concurrents (notamment chez Google, qui clame haut et fort ne pas le prendre en compte). À noter que Yandex dispose d’un filtre (« PF ») qui pénalise les sites web se livrant au « click-jacking », le fait d’ « imiter » le clic des internautes.

D’autres facteurs concernent le dernier clic, le temps passé sur la page, le taux de rebond, le nombre de fois qu’une page est placée en favori par les utilisateurs, le nombre de visiteurs qui reviennent sur la page durant le même mois… Mais un grand nombre d’entre eux sont considérés comme obsolètes.

D’autres facteurs de classement pêle-mêle
La profondeur du crawl, et principalement le fait de placer les pages les plus importantes à moins de trois clics de la page d’accueil (elles ont alors plus de poids aux yeux de l’algorithme).
La pondération (symbolique) des pages orphelines dans la structure de liaison du site.
La position moyenne des pages du domaine sur l’ensemble des requêtes travaillées.
Un « bonus » de classement attribué aux pages Wikipédia (du moins pour la version anglophone de la plateforme) et au trafic généré sur le site depuis une page de l’encyclopédie participative.
Un facteur de classement spécifique pour les vidéos courtes (Reels, shorts, contenus sur TikTok).
L’importance des URL issues de comptes sociaux vérifiés, par rapport aux comptes qui ne le sont pas.
La présence d’un code JS issu de Google Analytics.
Et un facteur de classement qui fait la part belle au hasard : un site peut ainsi se positionner au sommet des résultats par le simple jeu des circonstances. Cela permet à l’algorithme de mener des tests de comportement.

Que nous disent ces révélations à propos de l’algorithme de Google ?

C’est la question que tous les spécialistes SEO se posent : dans quelle mesure les renseignements tirés de cette fuite nous permettent de mieux comprendre le fonctionnement de l’algorithme de Google ?

Avant toute chose, il faut avoir conscience de la proximité technologique qui existe entre Yandex et Google. Le moteur de recherche russe a été créé par d’anciens employés de chez Google, et pensé dès son origine comme un outil similaire – ou, du moins, comparable. On retrouve d’ailleurs des fonctionnalités proches : Yandex utilise PageRank, et son MatrixNet est l’équivalent de RankBrain (ou l’inverse, puisque sa version russe est plus ancienne). En outre, les référenceurs russes emploient globalement les mêmes techniques White Hat pour ranker sur les deux moteurs.

En somme, bien qu’il existe des différences entre Yandex et Google, l’approche du ranking reste relativement similaire. On peut donc en déduire qu’une partie des facteurs de classement est identique dans les deux cas, d’autant plus que les résultats affichés par les deux plateformes pour une même requête partagent de nombreuses sources (faites le test chez vous !).

Alors, peut-on appliquer les enseignements tirés de Yandex aux stratégies de référencement sur Google ? Pas vraiment, car les deux moteurs ont leurs différences, et de plus, les facteurs de classement évoluent en permanence – un certain nombre de ceux qui ont fuité semblent déjà avoir été mis au rancart.

En revanche, on peut voir ces informations comme des piliers sur lesquels s’appuyer pour mieux comprendre le fonctionnement des moteurs de recherche en général, Google y compris. La bonne nouvelle, c’est que ces révélations confirment globalement les pressentiments qui sont ceux d’une majorité de spécialistes du SEO depuis plusieurs années. D’une certaine façon, l’affaire du Yandex Data Leaks conduit la communauté SEO à se dire que, depuis tout ce temps, elle suit effectivement la bonne route.