Google peut-il vraiment reconnaître les contenus de qualité ?

Google, par le biais de son responsable antispam Matt Cutts, dit privilégier les "contenus de qualité" dans ses résultats de recherche. Problème : comment peut-on rendre compte de manière algorithmique d'un élément aussi subjectif ?

Dans le film Her, de Spike Jonze, les systèmes d’exploitation sont tellement développés qu’ils sont capables d’émotions, d’empathie pour les êtres humains ou d’appréciation envers les œuvres d’art, y compris littéraires. Mais Her est un film de science-fiction. Or, pour le moment, les systèmes d’exploitation et autres moteurs de recherche, aussi perfectionnés soient-ils, ne sont pas programmés pour s’émouvoir devant le style d’un bloggeur ou la plume d’un Jean d’Ormesson du web.
Émotions mises de côté, Google dit pourtant reconnaître et privilégier grâce à son algorithme les « contenus de qualité ». Alors, peut-on croire que des robots sont déjà capables de mathématiser en algorithme des éléments aussi subjectifs ? Passage au crible des principaux critères de référencement de la firme de Moutain View.

Plagiat et orthographe : des critères d’exclusion assez efficaces

Pour référencer un contenu, Google exclut de ses résultats des articles révélant de mauvaises pratiques : le plagiat et les erreurs syntaxiques ou linguistiques. Depuis 2009, le moteur de recherche fait la chasse au duplicate content et recommande aux gestionnaires de sites de produire un contenu original. L’exclusivité, qui met l’accent sur l’originalité et la création, est sans doute le critère de qualité le plus fiable de Google.
Autre critère assez fiable : l’orthographe. On le sait, Google est capable d’identifier les fautes. On en a la preuve lorsqu’on tape une requête erronée dans la barre de recherche : apparaît automatiquement la mention « essayez avec ». Cette prise en compte de la qualité orthographique jouerait également dans le référencement. Pour la longueur et l’orthographe, Google a donc des moyens efficaces d’exclure un certain nombre de mauvais résultats.

Longueur et fraîcheur du contenu : des critères peu fiables

Parmi les critères mis en avant par Google pour juger de la qualité d’un article : la longueur et le lien avec l’actualité. Estimant qu’un bon article est un article fouillé, précis, Google accorde une prime à la longueur des contenus. Mais ce critère, qui n’a d’ailleurs pas une incidence déterminante dans le référencement, est en soi très contestable : on peut très bien écrire un article très long et très mauvais.
On sait aussi qu’un article qui traite d’un sujet en lien avec l’actualité « chaude » a plus de chances d’apparaître dans les résultats de recherche.
Soit sous la forme d’un cluster, sorte de dossier formé en haut de la première page des résultats de recherche, soit sous forme de résultat normal dans les SERPs. Et puis, bien sûr, cela donne la possibilité d’être référencé dans Google Actualités. Mais ce critère à la réactivité entraîne des dérives sur la création des contenus : dans l’urgence, certains sites n’hésitent pas à bâcler leur article.

Taux de rebond et temps passé : les critères négligés

Pour juger de la faculté à intéresser, le moteur s’appuie sur deux critères : le taux de rebond et le temps passé sur une page. Le taux de rebond est le calcul du nombre de lecteurs qui quitte le site après lecture de la première page. Plus il est bas, mieux c’est.
Quant au temps passé sur la page, il est considéré comme bon au-delà de deux minutes. Après la prise en compte du plagiat, ce sont sans doute les critères de qualité les plus fiables. Et c’est dans ce sens que vont les chantres de « l’Attention web », qui œuvrent pour que le référencement soit d’abord basé sur l’attention apportée à un contenu.

Au final, Google s’en remet surtout à la notoriété, donc à l’humain, ce qui signe son échec

Google prend de plus en plus compte pour indexer ses articles des critères de recommandation et partages sur les réseaux sociaux. On en revient donc à l’époque de la SEO via des liens, le social venant en complément des backlinks. Mais on retrouve les mêmes dérives sur les signaux sociaux que ceux qui existaient dans les années 2000 lorsque le backlinking était le roi de l’algorithme : achat de communautés de followers, forçage de likes sur Facebook et dérives sur les critères de qualité.
Les sites de divertissements comme Upworthy font ainsi le plein de likes ; or, il a été prouvé que la plupart de ces likes reposent avant tout sur des techniques « d’appât », telles qu’un titre accrocheur ou un chapô invitant à cliquer.
Le discours sur la prétendue prime aux articles de qualité tenu par Google paraît donc bien peu fiable. Pour autant, des pistes existent et préparent peut-être le prochain changement majeur d’algorithme de Google : le moteur de recherche pourrait ainsi s’appuyer beaucoup plus sur les critères d’attention portée à un contenu, en valorisant le temps passé sur une page en le mixant avec le parcours de la souris sur une page et la longueur du contenu proposé. En attendant de trouver l’algorithme miracle, Google continue de privilégier la popularité des contenus, leur audience et leur viralité, et valide donc la logique des mass media et de Facebook, un de ses plus féroces concurrents. Quitte à négliger, malgré des discours dans ce sens, les contenus de qualité.