Pourquoi le machine learning cartonne dans la Silicon Valley

Pourquoi et comment Facebook ou Google se servent de l'apprentissage automatique ? Peut-il servir à d'autres acteurs ? Des techniques pas nouvelles, mais en plein boom.

L'apprentissage automatique ou "machine learning" est en vogue dans la Silicon Valley. Récemment, Facebook a expliqué s'en être servi pour mettre en avant plus de contenu de haute qualité dans le flux d'actualités proposé à ses utilisateurs. Il est aussi apparu assez clairement que le moteur de recherche de Google s'était largement appuyé sur le machine learning pour mettre au point son algorithme Google Panda, lui aussi chargé de mieux mettre en avant des sites web de qualité. Ce ne sont pas les seuls, mais ces deux exemples sont assez parlants pour comprendre pourquoi le machine learning peut intéresser les poids lourds du web.

Le sondage souvent utilisé comme base du machine learning

Dans les deux cas, Google et Facebook ont conçu, dans le cadre d'un sondage, une série de questions qui devaient servir à déterminer la qualité d'un contenu. "Croyez-vous les informations de cet article ?", "Est-il correctement écrit, sans faute ou erreur factuelle ?", "Seriez-vous prêt à donner le numéro de votre carte de crédit à ce site ?". Il s'agit de 3 des 23 questions que Google a publiées avant d'expliquer qu'elles avaient servi au moteur pour trier le bon contenu du moins bon, et donc mettre au point Google Panda. Mêmes explications, et presque mêmes questions chez Facebook, qui cherchait aussi de son côté à publier du contenu plus qualitatif dans son newsfeed : "Ce contenu provient-il d'une source que vous jugez crédible ? Le partageriez-vous avec vos amis ou le recommanderiez-vous ?", etc. (cf. le blog officiel du réseau social).

Sondage, arbre de décision : des éléments que l'on retrouve souvent dans le machine learning.

Ces sondages sont souvent utilisés pour le machine learning : ils pourront même pouvoir en être le socle – du moins pour ce que les spécialistes appellent plus précisément "l'apprentissage supervisé". Ces sondages permettent en effet de qualifier des données, ici du contenu, et ainsi "apprendre" à la machine ce qu'est par exemple ce bon contenu. Plus globalement, ils servent à apprendre à la machine à faire la correspondance entre la donnée et la qualification que l'on peut en faire, et que l'on attend qu'elle fasse.

La machine pourra ensuite retenir les variables discriminantes, c'est-à-dire des critères, et les appliquer. C'est ici qu'intervient un autre élément souvent utilisé en machine learning : l'arbre de décision. Les questions que doit se poser la machine, c'est-à-dire les critères de segmentations, représentent les embranchements de l'arbre, et les règles de décision. Cet arbre pourra donc permettre de prédire la qualité d'un contenu, s'il répond à certains critères. Deux pointures internationales du SEO ont pu s'appuyer sur plusieurs documents scientifiques d'employés de Google pour décrypter, dans un article remarqué, comment Google semble s'être servi d'un tel arbre de décision pour Google Panda.

De vastes champs d'applications

Facebook ou Google ne sont pas les seuls à utiliser le machine learning. Autre ténor de la Silicon Valley, Salesforce s'est par exemple récemment vanté d'utiliser de tels systèmes pour son réseau social d'entreprise Chatter. IBM s'en est aussi largement servi pour son super système cognitif Watson. "Aujourd'hui, ces méthodes intéressent aussi le secteur du retargeting publicitaire, car elles peuvent aussi aider à correctement segmenter les internautes, pour mieux ensuite cibler les publicités. Le machine learning est également utilisé dans le cadre de deboggage de logiciels. L'apprentissage automatique peut aussi servir à améliorer le système de recommandation de contenu à un internaute, même s'il existe des systèmes plus simples pour arriver à cette même fin", explique Sylvain Peyronnet, professeur des universités, justement spécialisé sur ces questions au sein du Groupe de recherche en informatique, image, automatique et instrumentation (Greyc) de l'université de Caen.

sylvain peyronnet — Sylvain Peyronnet est professeur à l'université de Caen Basse-Normandie. © S.Peyronnet

Le Web n'est cependant pas le seul secteur intéressé par le machine learning. La technique est connue pour être née avec la reconnaissance de caractères manuscrits. Elle intéresse aujourd'hui aussi beaucoup les domaines liés au traitement d'image. Sur le terrain de l'imagerie médicale, elle peut par exemple servir à aider la détection des tumeurs cérébrales.

Des techniques pas si nouvelles

Les applications possibles sont donc nombreuses, dépassant l'informatique, mais ne sont pas récentes. "Le machine learning est loin d'être nouveau, et compte plusieurs décennies de travaux scientifiques. Mais il y a en effet sans doute un effet de mode", admet Sylvain Peyronnet. "Ce qui pourrait expliquer cet engouement, c'est peut-être que le machine learning a besoin de grande quantité de données pour être efficace. Or, des acteurs comme Google ou Facebook en possèdent beaucoup...", poursuit l'universitaire. L'essor du Big data ne serait donc pas totalement déconnecté de l'intérêt actuel pour le machine learning... Et pas étonnant que des acteurs de l'un se retrouvent aussi dans l'autre (publicité en ligne, business intelligence, moteur de recherche...)

Le matériel, et les systèmes pour traiter ces données en masse, et s'en servir à des fins d'apprentissage automatique sont-ils aujourd'hui plus accessibles, ce qui pourrait aussi expliquer le succès rencontré actuellement par le machine learning ? "Le cœur de la méthodologie a assez peu évolué, et il y a finalement peu de nouveautés dans les systèmes mis au point pour l'apprentissage automatique", tranche le spécialiste du Greyc. Mais ce dernier admet cependant qu'il y a bien des optimisations mieux connues aujourd'hui concernant les configurations matérielles possibles, et détaillées dans un article signé par des employés de Google... dont l'un répondant au nom de Panda, et qui a sans doute ensuite donné son nom à l'algorithme du même nom. Là encore, la technique de calcul distribué évoquée, MapReduce, rappelle des techniques de parallélisation déjà imaginées il y a plus de 20 ans.

Machine Learning, au cœur de l'algorithme de Google ?

Toujours est-il que ces techniques, pas franchement nouvelles, ont tout de même permis à Google de mettre au point, il y a quelques années à peine, Google Panda. Toutes les pénalités algorithmiques de Google, sont-elles bâties sur le machine learning ?

google penguin — Google Penguin et Panda sont deux algorithmes pouvant pénaliser le référencement des sites web. © julien tromeur, Anna Velichkovsky (Fotolia) et capture Google.

Fin observateur des méthodes utilisées par le moteur de Mountain View, Sylvain Peyronnet pense-t-il par exemple que Google s'est servi du machine learning pour mettre au point Google Penguin, un autre algorithme pouvant pénaliser le référencement de sites Web.

"Bien sûr, personne ne connait les secrets de conception de l'algorithme de Google, mais je pense que Google s'est servi du machine learning à la fois pour Google Panda et Penguin. Pour Panda, Google s'est à mon sens servi de plusieurs éléments pour bâtir son système de machine learning : les réponses au sondage, certes, mais aussi les avis des Search Quality Raters, employés par Google pour juger la qualité des pages de résultats, ainsi que les interactions des internautes eux-mêmes avec les résultats remontés par le moteur [le taux de rebond sur les pages de résultats, ou le "pogo sticking", est par exemple un indicateur souvent cité NDLR]. En revanche, pour Penguin, je pense que Google s'est plutôt majoritairement reposé sur l'avis des Search Quality Raters, car ils sont mieux placés pour juger qu'un title ou une ancre de lien peut générer du spam dans les résultats de recherche", pense l'enseignant.

Bien sûr, il ne s'agit que d'une théorie. N'empêche : certaines suroptimisations concernant les liens ou l'ancre de ces liens semblent bien avoir pu déclencher des pénalités Google Penguin... Et pas sûr que des sondés lambda puissent correctement apprécier et qualifier ce type de pratiques. C'est en revanche une compétence plus susceptible d'être trouvée chez un Search Quality Rater...