Comprendre l'algorithme de Google : corrélation n'est pas causalité !

Comprendre les critères de pertinence et de pénalisation de l'algorithme de Google, pour améliorer les positions d'une page sur une requête, est un enjeu pour les marques. L'analyse de ces critères exige une rigueur scientifique et un sens critique poussé : confondre les notions de corrélation et de causalité mène à des conclusions erronées.

Si vous vous intéressez au référencement naturel, vous avez forcément entendu parler de Matt Cutts. Ce cadre dirigeant de Google joue souvent le rôle de médiateur entre les webmasters et le moteur de recherche. Dans l'une de ses vidéos, postée en janvier 2014, Matt Cutts répond ainsi à la question d'un internaute et relate une anecdote qui l'a semble-t-il beaucoup amusé : un référenceur affirme qu'il a constaté que ses pages étaient d'autant mieux positionnées sur Google qu'elles comptaient un grand nombre de partages sur Facebook.

Distinction entre corrélation et causalité

Ce référenceur a commis une erreur en confondant corrélation et causalité. La corrélation consiste à mesurer le lien qui unit deux variables. Si une variable réagit aux variations d'une autre donnée, il y a corrélation. Par exemple, la météo et la tenue vestimentaire sont fortement corrélées : le nombre de parapluies est intimement lié à l'aspect nuageux ou pluvieux du ciel, et le pourcentage de passants qui portent des vestes, manteaux et pardessus est étroitement associé à la température extérieure ressentie. 
Dans cet exemple, corrélation et causalité vont de pair : il est indiscutable que le climat et la tenue vestimentaire sont liés, et que la météo du jour influence le choix de la tenue, et non l'inverse ! Mais l'identification d'une corrélation entre deux variables ne prouve pas forcément une causalité : ce n'est pas parce que deux variables semblent liées que l'une influe forcément directement sur l'autre. Bien souvent, en effet, une autre variable explique les variations concomitantes des deux premières.

Pour illustrer cela, nous pourrions prendre un exemple concret. Des études très sérieuses montrent chaque année la corrélation qui existe entre le prénom des candidats et la réussite au Bac. Par exemple, selon une étude publiée sur Slate.fr, 20% des Adèle et des Diane ont obtenu une Mention Très Bien, suivis de près par les Alice, Louise, Anne ou Alix. En queue de peloton, avec 3% de Mentions Très Bien, nous retrouvons des prénoms comme Kevin, Jordan, Dylan...
Aucun esprit censé ne peut imaginer qu'un prénom influence directement la capacité d'une personne à réussir à un examen comme le Baccalauréat. Par contre, il est facile de trouver une troisième variable, directement corrélée aux deux variables que sont le prénom et le pourcentage de mentions : le milieu social ! La véritable causalité provient donc de l'origine sociale des candidats. Des prénoms comme Adèle ou Diane étaient plus fréquemment choisis il y a dix-huit ans, à la naissance des candidats, par des catégories socio-professionnelles capables de préparer au mieux leurs enfants au système scolaire. À l'inverse, des prénoms comme Kevin, Jordan, Dylan, étaient bien plus présents dans des classes populaires : Dylan, par exemple, est le prénom d'un personnage de fiction de Beverly Hills, série plébiscitée par les classes populaires et diffusée durant toutes les années 90... Il y a 18 ans !

Mesurer une corrélation est facile... Et déterminer une causalité ?

La mesure d'une corrélation est particulièrement facile. Le coefficient de Bravais-Pearson, disponible sur tout tableur digne de ce nom (Excel, Open Office Calc...), permet par exemple de mettre en lumière une corrélation entre deux champs de données. Plus le coefficient s'approche de +1 ou de -1, plus les deux variables sont corrélées : +1 signifie que les variables progressent dans le même sens (les deux montent ou descendent en même temps), -1 dans un sens opposé (l'une monte, l'autre descend).
Un coefficient proche de 0 tend à nier toute corrélation. Pour les amateurs de mathématiques, la formule Bravais-Pearson se trouve facilement en ligne : une simple recherche Google suffit à la dénicher.
Mais tout l'enjeu d'une telle formule repose sur votre capacité à l'utiliser à bon escient. Revenons au sujet premier de cette chronique, l'analyse et la compréhension de l'algorithme de Google.
En effet, de nombreux référenceurs cherchent à mettre en lumière les actions de référencement, optimisations "on-page" ou "netlinking", qui conduisent à une amélioration concrète du positionnement sur Google : ils espèrent identifier des corrélations nouvelles et trouver ainsi les bons leviers à actionner, ceux qui leur permettront de grappiller quelques places dans les SERPs (Search Engine Results Pages) et se hisser parmi les toutes premières positions.
Suivant votre niveau d'expertise et le temps dont vous disposez, vous consultez certainement divers blogs consacrés au référencement, ou vous essayez de découvrir vous-même les critères qui peuvent faire progresser votre référencement.
Si vous procédez ainsi, gardez toujours à l'esprit qu'une corrélation n'est pas forcément la preuve d'une causalité. Matt Cutts s'amuse de l'analyse du référenceur dans sa vidéo car celui-ci, focalisé sur la mise en lumière d'une corrélation, en a tiré des conclusions hâtives. La qualité d'un contenu ne détermine pas seulement le pourcentage de partages et de j'aime sur Facebook, mais aussi le nombre de liens que des blogueurs et webmasters mettront d'eux-mêmes en place. Pour être confirmée, son analyse aurait demandé d'écarter toutes les autres explications possibles, dont celle d'un netlinking spontané. En identifiant et en désavouant systématiquement les liens pointant vers cette page, par exemple, pour ne conserver que les "J'aime" et les partages sur Facebook, la même corrélation s'observerait-elle encore ?

Portez un regard critique sur toute hypothèse touchant au référencement

La démonstration proposée tout au long de cet article constitue avant tout un appel à la prudence.
Que vous soyez référenceur amateur ou confirmé, dans la pêche aux informations sur les blogs ou dans l'élaboration de vos propres hypothèses, vous devez toujours faire preuve de prudence et de sens critique. Une théorie attirante, aussi bien construite soit-elle, ne peut parfois relever que du sophisme et vous induire en erreur. Au mieux, vous gaspillerez de l'énergie et du temps en jouant sur une variable qui en réalité ne contribue pas vraiment à votre référencement, au pire vous perdrez des positions pour avoir actionné les mauvais leviers.
Vous éviterez certains écueils en gardant une vision la plus systémique possible et en vous concentrant sur les fondamentaux : un contenu de qualité aspire naturellement à la popularité et aux partages, via des partages sur les réseaux sociaux ou des liens obtenus spontanément sur des sites tiers.
Et si les partages sur Facebook ne contribuent pas directement à votre référencement, ne méritent-ils pas de s'inscrire dans votre stratégie de présence digitale par le trafic supplémentaire qu'ils vous apportent ?

Réseaux sociaux / Moteur de recherche