Black Hat SEO : quand Google dépose des brevets contre les spammeurs

Black Hat SEO : quand Google dépose des brevets contre les spammeurs Quels brevets pourraient se cacher derrière Google Penguin, ou la lutte du moteur contre le webspam ? En voici quelques-uns que Google pourrait bien utiliser pour contrer certains abus de netlinking...

Google a cette année encore haussé le ton contre le spam dans ses pages de résultats. Après Panda en 2011, Penguin a cette année voulu combattre certains abus de netlinking. Le moteur a cherché, et même réussi, à faire peur à ceux qui ne respectaient pas ses consignes, qu'il a d'ailleurs largement réactualisées pour mieux viser des techniques actuellement utilisées pour obtenir facilement, mais artificiellement, de précieux backlinks.

Mais, au-delà de ce discours, de quels moyens dispose vraiment Google pour détecter ce webspam, et tous ces "liens non naturels" ? Impossible de le savoir, mais les brevets que le moteur dépose peuvent donner une idée de ses champs de recherche, des problèmes qu'il cherche à résoudre, et des pratiques qu'il pourrait automatiquement sanctionner. Cepenpdant, rien ne garantit que Google se serve des techniques qu'il a brevetées. "Si ces brevets peuvent montrer les nombreux moyens par lesquels Google peut identifier le spam, il est possible que Google se serve d'autres méthodes qu'il souhaite garder secrètes afin que les spammeurs ne puissent pas les connaître", prévient Bill Slawski, expert SEO qui tient un site justement spécialisé dans les brevets déposés par Google, SeoByTheSea.com.

Un brevet pour repérer les spams dans les commentaires

En réactualisant ses consignes, Google y a glissé certains nouveaux exemples de pratiques de linking qu'il considère comme du spam et qu'il cherche donc à pénaliser. Parmi ces exemples, parfois très explicites, figurait ce que certains référenceurs appellent le "SpamCo", soit les commentaires d'un contenu qui ont parfois moins pour but d'être pertinents que de placer un backlink. Or, un brevet délivré à Google en 2012 indique que le moteur a pu mettre au point un système capable de détecter ces spams de commentaires.

google penguin
De nombreux brevets se cachent derrière Google Penguin... © Montage julien tromeur (Fotolia) / Google

Ce brevet concerne précisément le rapport qu'il peut y avoir entre ce qu'il appelle "un premier contenu", par exemple "une vidéo, un son, une page web ou un article d'actualité" et son "deuxième contenu associé", qui peut être "des votes, des commentaires, ou des liens". Souvent, est-il écrit dans ce brevet, "le deuxième contenu n'est pas pertinent pour le premier contenu". Par exemple, "au lieu de commenter la vidéo ou le produit, les internautes vont inclure un lien vers du spam, (...) ce qui leur permet de manipuler les résultats des moteurs de recherche", car les SEO le savent bien, les liens dopent le référencement. Difficile de faire plus clair contre le "Spam Co"...

Mais ce n'est pas tout puisque, plus loin dans le texte, Google indique qu'il craint bel bien que "le classement des pages Web puisse être manipulé par la création de plusieurs liens utilisant la même ancre". Or, utiliser la même ancre, avec le mot clé visé, est aujourd'hui considéré par bon nombre d'experts comme une pratique pouvant déclencher une pénalité Google Penguin...

Google montre aussi, dans ce même brevet, qu'il a même élaboré un système de gestion de contenu (CMS) permettant de s'attaquer aux problèmes générés par ces spams en commentaires. "Il est possible que le système décrit dans ce brevet soit destiné aux Quality Raters que Google engage pour évaluer ses résultats, ou à ses ingénieurs évaluant eux aussi la qualité de ces résultats, ou aux deux", note Bill Slawsky, qui estime même que l'arbitrage pourrait ne pas venir d'un humain, mais d'un logiciel. "Un algorithme pourrait mesurer la pertinence de ces deuxièmes contenus associés par rapport au premier contenu, et réagir lorsque un certain seuil de non-pertinence est franchi... "

Des brevets montrent que Google pourrait chercher à diminuer le poids des ancres de liens sans rapport sémantique

Des brevets pour détecter les ancres incohérentes

Une des familles de brevets qui intéresse particulièrement Bill Slawski concerne une méthode d'"indexation par expression" (Phrase-Based Indexing). Cette méthode est loin d'être une récente découverte de Google, et pourrait même être l'un des piliers du fonctionnement du moteur depuis son origine. Matt Cutts, aujourd'hui porte-parole de Google bien connu des SEO, en explique assez bien le principe, simplement, dans un petit article très clair datant de 2006.

Cette technique d'indexation a généré une quantité très importante de brevets chez Google, certains délivrés très récemment et d'autres moins. Tous ces brevets pourraient avoir des applications très vastes, et permettre notamment au moteur, entre autres, d'identifier les ancres de liens sans cohérence sémantique et ainsi éviter certains Google Bombing.

Pour la résumer brièvement, cette méthode permet de classer les pages Web selon les termes trouvés à l'intérieur, et d'éviter aux serveurs du moteur de parcourir à chaque fois tout le Web pour trouver les mots recherchés. En effet, après avoir parcouru les pages web, Google peut jongler avec les données indexées pour lister tous les documents contenant un ou plusieurs mot précis. Ainsi lorsqu'un internaute recherche "guerre civile", le moteur peut faire remonter les pages contenant le mot "guerre" et le mot "civile" , et par exemple commencer par réunir les pages présentant les deux termes, puis afficher d'abord celles les ayant répétés, ou mis en avant.

De quoi, fait remarquer Bill Slawsky, facilement faire "diminuer le poids des ancres sans rapport sémantique". D'ailleurs, là aussi, certains référenceurs estiment aujourd'hui, surtout après Google Penguin, que le rapport sémantique entre les pages vers lesquelles pointent les liens et là où ils sont posés doit gagner en cohérence pour être plus efficace.

De son côté, Bill Slawsky estime que cette méthode d'indexation pourrait aussi aider le moteur à éviter les fameux Google Bombing. Il rappelle un exemple bien connu dans l'histoire des Google Bombing, lorsque la requête "miserable failure", soit "échec lamentable", faisait remonter la biographie officielle du président George W. Bush. Google avait alors fièrement annoncé avoir vaincu ce Google Bombing, et ce sans doute en s'appuyant sur ces brevets liés au Phrase-Based Indexing. Car, la biographie du président est de nouveau remontée sur cette requête lorsque quelqu'un, à la Maison Blanche, a un jour maladroitement ajouté le mot "échec" dans le texte de la biographie...