Sylvain Peyronnet (GREYC) "Google Hummingbird permet au moteur de lever des ambiguïtés"

Comment fonctionne un filtre comme Google Penguin ? Pourquoi Google a déployé le Knowledge Graph ou Hummingbird ? Réponses et avis d'un professeur des universités spécialisé sur ces questions.

JDN. D'après vous, comment fonctionne un filtre anti-spam comme Penguin ?

sylvain peyronnet greyc
Sylvain Peyronnet est professeur des universités à l'université de Caen Basse-Normandie. Ses recherches s'effectuent au GREYC. © S.Peyronnet 

Sylvain Peyronnet. Ma réponse est bien sûr sujette à caution, car Google ne m'a pas révélé ses secrets, mais il s'agit probablement d'un arbre de décision issu de l'apprentissage supervisé.

Je m'explique : Google va prendre un grand ensemble de sites web et va les noter. Pour cela, le moteur peut faire appel à des employés, les fameux "quality raters", ou utiliser les rétroactions des utilisateurs comme les spam reports, leurs comportements sur le classement, etc.

Il peut ainsi obtenir, pour chaque site web de l'échantillon, une note sur sa "qualité". Dans le cas de Penguin, peut-être que, par exemple, il fallait que la note détermine si le site profite, ou ne profite pas, du spam. 

Ensuite, il faudra associer de nombreuses caractéristiques à ces pages notées. Car après, le but est d'utiliser un algorithme d'apprentissage automatique qui va créer un ensemble de règles de décision permettant de "trier" les pages en plusieurs classes : celles qui sont du spam, celles qui n'en sont pas, celles sur lesquelles on ne peut rien dire, etc.

Les règles de décision sont multi-critères : avoir un nom de domaine optimisé est un indice qui, seul, ne permet pas de décider de la qualité d'une page, mais si on croise cette information avec d'autres, comme le nombre de liens, le balisage HTML, les statistiques sur le texte... on peut alors déterminer la qualité de la page.

Pour ceux qui veulent aller plus loin, je détaille sur mon blog la méthode de Ntoulas et ses coauteurs, qui est l'essence même d'un filtre. (NDLR sur les arbres de décision et l'apprentissage automatique, lire également notre article : La mise à jour Panda de Google expliquée par les brevets).

Que pensez-vous de cette mise à jour Hummingbird, ou "Colibri", qui aurait impacté, selon Google, 90% des requêtes ? Est-elle selon vous une évolution majeure du fonctionnement du moteur ?

"Le Knowledge Graph permet de pendre en compte l'aspect sémantique du web"

Ce n'est certainement pas une évolution majeure du fonctionnement. Il s'agit probablement d'un mécanisme de compréhension et reformulation des requêtes qui permet au moteur de lever des ambiguïtés, et donc d'améliorer en partie les résultats en évitant certaines erreurs.

Cela améliore aussi l'expérience de l'utilisateur, car ce dernier n'a plus besoin de reformuler lui-même sa requête pour aider le moteur à comprendre sa demande.

Quand Google annonce ce chiffre de 90%, cela signifie à mon sens que 90% des requêtes sont susceptibles d'être touchées, mais cela ne signifie pas que le résultat du classement est forcément différent. Il y a une nuance, en reformulant une question, on ne change pas toujours la réponse, et si le moteur fournissait déjà une bonne réponse, cela ne changera pas.

Google a-t-il pris un virage "sémantique" comme certains de ses cadres l'affirment ? Le Knowledge Graph associé a-t-il été compliqué à mettre en place ?

Je ne sais pas si on peut parler de virage, mais en tout cas, il est sûr que le Knowledge Graph permet à Google de pendre en compte l'aspect sémantique du web. Ce qu'il ne faisait pas vraiment jusqu'à présent. Une application plutôt directe du Knowledge Graph est d'ailleurs la compréhension des requêtes, qui semble donc aussi être une partie de Hummingbird...

Cependant, les concepts et outils sur lesquels le Knowledge Graph est construit sont connus, et existent depuis très longtemps en dehors de Google. Mais le déploiement qui en est fait par Google est impressionnant, notamment à cause de son échelle et de la qualité de la réalisation. Sur ce point comme beaucoup d'autres, Google possède une supériorité technique certaine. Il n'y a donc pas de difficulté conceptuelle, mais plutôt une mise en application complexe.

Pouvez-vous nous expliquer votre projet d'étude sur le Webspam : quel est le but de cette étude et qu'attendez-vous de ses résultats ?

Cette étude, qui est en partie crowdfundée par la communauté SEO française, a plusieurs buts. Nous souhaitons construire un "dataset", c'est-à-dire un échantillon d'une partie du web, pour fournir une base de travail aux chercheurs du domaine. Nous voulons ensuite déterminer les critères constitutifs du spam sur le web, dans le but de réaliser un classifieur. Il s'agit donc basiquement de créer un filtre, comme évoqué plus haut avec le fameux Penguin par exemple.

Pour cela, nous crawlons le web pour créer un index de plusieurs millions de pages qui vont être notées par des volontaires. Puis nous allons extraire les caractéristiques des pages pour construire un ensemble de règles de décision.

Au-delà de l'objectif scientifique, cette étude pourra aussi donner un aperçu des pratiques des webmasters et référenceurs en 2013.
 

Biographie professionnelle : Sylvain Peyronnet est professeur des universités à l'Université de Caen Basse-Normandie. Ses recherches s'effectuent au GREYC, où il est responsable de l'équipe AMACC (Algorithmique, Modèles de calcul, Aléa, Cryptographie, Complexité). Il est par ailleurs co-fondateur de la société Nalrem Médias, avec son frère Guillaume Peyronnet qui en est le gérant. Ensemble, ils proposent actuellement des Masterclass "Moteurs+SEO" dans plusieurs villes de France (voir l'agenda dédié).