Sylvain Peyronnet (ix-labs) "Même les ingénieurs de Google ne peuvent plus comprendre le fonctionnement du moteur"

Auréolé du prix SEMY de la personnalité Search de l'année, le co-fondateur des ix-labs, également Chief Scientist de Qwant, décrypte pour le JDN les arcanes scientifiques des moteurs de recherche, et évoque l'impact, considérable, du machine learning chez Google.

JDN. Vous avez récemment reçu le prix SEMY de la personnalité Search de l'année. Qu'est-ce que cela vous inspire ?

Sylvain Peyronnet est co-fondateur et responsable des ix-labs (laboratoire de R&D en algorithmique du web), mais aussi Chief Scientist chez Qwant, entre autres. © DR

Sylvain Peyronnet (ix-labs). Il m'est arrivé d'un peu me moquer de ce genre de récompense, mais en fait, pour être honnête, je dois bien avouer que ce prix m'a fait très plaisir. Cela m'a surpris, aussi, car je ne pensais pas avoir le profil type pour un tel prix. Je pensais que la récompense allait plutôt être destinée à une personnalité plus opérationnelle, issue de la communauté des SEO ou du Search Marketing, mais pas des moteurs de recherche. Au début, j'ai même cru que l'on me faisait une blague !

Votre parcours diffère en effet de la plupart des SEO. Professeur à l'université actuellement en disponibilité, vous avez par exemple lancé l'iSwag, une conférence scientifique dédiée aux algorithmes utilisés dans le web…

Pour moi, le pari d'iSwag, est gagné. L'iSwag, pour International Symposium on Web Algorithms, aura pu inviter des chercheurs renommés, comme Nelly Litvak, la spécialiste mondiale du PageRank. Des entreprises comme CDiscount ou Algolia ont également pu présenter leurs travaux, devant un public qui était d'ailleurs plus international que français.

Les deux premières éditions se sont déroulées à Deauville, en parallèle de QueDuWeb, l'autre événement dédié au webmarketing plus opérationnel que nous avons lancé. Mais je ne pense pas qu'iSwag puisse se dérouler dans les mêmes conditions l'année prochaine, notamment à cause de la situation financière, déplorable, des laboratoires actuellement en France. De plus, ce genre d'événement scientifique a de toute façon plutôt vocation à changer de lieu. Et compte tenu du temps qu'il faut pour préparer le déplacement de l'événement, je ne sais pas s'il pourra avoir lieu l'année prochaine.

Quant à QueDuWeb, il y aura bien une édition 2017, sans doute à Deauville, mais elle se tiendra a fortiori sur 2 jours, et non sur 3, avec un programme pensé un peu différemment, pour en faciliter l'organisation. D'ailleurs, des conférences scientifiques abordables pourraient y figurer...

Vous êtes Chief Scientist de Qwant. En quoi cela consiste exactement ?

Nous avons développé des algorithmes antispam, comparables à Google Panda ou Penguin

En tant que responsable scientifique, je supervise la R&D de Qwant. C'est une équipe d'une demi-douzaine de personnes. Nous nous occupons de la recherche et des prototypes, mais c'est une autre équipe qui s'occupe de la mise en production.

Nous avons développé ses algorithmes antispam, comparables à ce que Google a fait avec Panda ou Penguin. Nous avons aussi mis au point Iceberg, le PageRank de Qwant.

Dans un moteur de recherche, comme celui de Google, il y a plusieurs niveaux, avec des algorithmes pour déterminer la popularité d'une page, pour mesurer sa pertinence, ou bien encore pour lutter contre le spam. Un algorithme de 'reranking' sert aussi à effectuer un nouveau classement de résultats. Tous ces comportements sont déjà opérationnels dans Qwant.

Votre autre société, Man in the Middle, a elle des activités publicitaires. En quoi consistent-elles ?

Il s'agit de réaliser de la publicité sans tracking, pour les moteurs de recherche. La publicité pourra être adaptée grâce à l'apprentissage du contexte, mais sans recourir à l'historique de l'internaute.

Le contexte, c'est évidemment la requête, mais aussi le moment où elle a été faite, avec ce qu'il se passe au même moment. J'utilise souvent cette image parlante pour décrire l'idée : c'est comme un barman qui proposerait une boisson spéciale en fonction de la chaleur. Il le fait sans rien savoir de la personne à qui il la propose, mais pourtant, son offre peut très bien fonctionner…

Nous avons mis au point une technologie efficace qui, en plus, est plus rapide que celle requérant de la personnalisation. Qwant, qui ne track pas ses utilisateurs, a annoncé investir dans notre technologie.

Vous connaissez bien la recherche scientifique réalisée dans le domaine du machine learning, qui a beaucoup inspiré Google dernièrement. Le moteur assure que son nouveau système baptisé RankBrain, reposant sur du machine learning, a un rôle majeur dans le classement des résultats. D'après vous, qu'a changé RankBrain dans les résultats ?

Je ne vois pas comment la communication de Google sur ses mises à jour pourrait s'améliorer.

Si je comprends bien, il y a maintenant Hummingbird, qui est au plus haut niveau, et RankBrain, une brique en dessous. Il faut bien se rendre compte que ce que certains appellent l'algorithme de Google, est en fait composé de différents algorithmes, comme le PageRank qui permet de classer la popularité des pages. Il y a aussi celui qui permet de comprendre une requête et d'évaluer la pertinence des résultats face à cette requête. Il y a souvent des scores : d'adéquation, ou de pertinence, mais aussi de popularité, de confiance…. Chaque score doit être pondéré, et une formule figée avait été déterminée pour que les scores agrégés donnent un score final permettant de classer les résultats. Avant RankBrain, cette formule était stable, désormais, avec RankBrain, je pense que cette formule évolue, et c'est le machine learning qui va apprendre à pondérer le mieux possible chacun des critères et des notes.

Cela pourrait expliquer pourquoi Google détaille beaucoup moins ces mises à jour dernièrement, voire même pourquoi Penguin n'a pas été lancé ?

Je pense que le machine learning de RankBrain agit sur plusieurs critères de l'algorithme. C'est pour cela que l'on ne peut plus bien le comprendre ! Même les ingénieurs de Google ne peuvent plus comprendre le fonctionnement du moteur en détail. Tous les algorithmes se retrouvent gérés par RankBrain. Il y a donc une possibilité pour que RankBrain efface Panda ou Penguin. Dans ce contexte, je ne vois pas comment la communication de Google sur ses mises à jour pourrait s'améliorer...

Il y a une autre conséquence directe observable de RankBrain. Les données provenant des Quality Raters alimentent l'apprentissage automatique, et elles sont souvent intégrées d'un seul coup dans le système : c'est pour cela qu'il peut y avoir des soubresauts bien visibles dans les résultats, exactement comme ceux observés au début du mois de septembre.

D'après vous, l'importance croissante du machine learning dans le classement des résultats s'accompagne-t-elle d'une décroissance de l'importance des liens ?

Pas impossible que RankBrain ait plutôt renforcé l'importance des liens

Cela serait plutôt l'inverse à mon avis ! Les liens ont un sens fort sur le Web, et ce n'est pas pour rien qu'ils ont pris un poids considérable aux yeux du moteur. Or, souvent, le machine learning, qui automatise en fait des décisions, va avoir tendance à renforcer les biais des décisions des êtres humains. Et je parle en connaissance de cause. Pas impossible, donc, que RankBrain ait plutôt renforcé l'importance des liens dans l'algorithme…

Un temps, votre nom faisait remonter un résultat issu du Knowledge Graph, en haut à droite des résultats de Google. Quelle technique avez-vous utilisé pour cela ?

Rien de bien sorcier ! J'ai eu une petite page Wikipedia, mais évidement, ils ont fini par l'enlever (rires). Mais je pense que c'est ce qui a déclenché l'affichage du Knowledge Graph, car maintenant, je n'ai plus de page Wikipedia, et cela ne remonte plus ! J'ai par ailleurs pu contribuer à d'autres pages Wikipedia, et j'ai pu observer cette corrélation sur d'autres cas.

Biographie professionnelle : Sylvain Peyronnet est chief scientist chez Qwant, co-fondateur et responsable des ix-labs (laboratoire de R&D en algorithmique du web), co-fondateur et président de The Machine In The Middle (régie publicitaire "algorithmique"). Il est en disponibilité d'un poste de Professeur des Universités à l'Université de Caen Basse-Normandie, mais il continue ses activités pédagogiques via des formations, dont l'une est consacrée à la vulgarisation du machine learning auprès d'un public à profil marketing.