Yann LeCun (Facebook) "Nous concevons des compagnons numériques capables de discuter avec vous"

Laboratoire de recherche à Paris, algorithme du newsfeed, création d'un agent intelligent, projets d'Oculus... Yann LeCun, directeur de la recherche en intelligence artificielle à Facebook, trace les lignes du futur de l'interaction homme-machine.

lecun article
Yann LeCun est le directeur de la recherche en intelligence artificielle de Facebook. © Facebook

JDN. Vous avez rejoint Facebook en décembre 2013 pour créer un laboratoire de recherche sur l'intelligence artificielle et au début du mois a été annoncée l'ouverture d'une antenne de ce centre à Paris. Combien de collaborateurs compte le laboratoire ?

Yan LeCun. Au total, une vingtaine de personnes travaillent dans le laboratoire de New York –dont moi-même, une vingtaine à Menlo Park, et cinq à Paris pour l'instant, mais nous allons grossir jusqu'à 25 à 30 chercheurs permanents, ainsi que des doctorants en contrats Cifre – co-supervisés par l'industrie et l'enseignement public.

Pourquoi Paris ?

Pourquoi l'Europe, déjà ? Il y a beaucoup de talents en Europe, de très haut niveau, qui n'ont pas du tout envie de traverser l'Atlantique. Pour choisir la ville où créer une nouvelle antenne, nous avons passé en revue les grands centres qui présentent une haute concentration de talents dans le domaine de la vision par ordinateur, du traitement par langage naturel, de l'apprentissage machine... Il y a Londres et Paris, puis dans une moindre mesure Zurich, et enfin beaucoup de talents en Allemagne mais qui sont disséminés dans tout le pays. Londres était le choix logique, puisque Facebook y a un gros bureau d'engineering avec 700 salariés. Mais la ville est déjà occupé par Microsoft, Deepmind et quelques autres acteurs, qui ont déjà des relations privilégiées avec l'écosystème et les universités locales. Nous avons donc plutôt penché pour Paris.

Vous travaillez notamment sur l'algorithme du newsfeed, qui fait remonter certaines informations plutôt que d'autres aux utilisateurs... En quoi l'intelligence artificielle vous permet de l'affiner ?

On travaille beaucoup sur des méthodes qui permettent aux machines de comprendre de quoi parle une pièce d'information : une image, une vidéo, un post, une news, un commentaire... Comprendre ce que veut dire une pièce d'information nous permet de la conjuguer avec les intérêts des gens et donc de sélectionner mieux les infos qu'on leur présente. Pour l'instant les techniques utilisées sont relativement simples. On essaie d'y mettre plus d'intelligence. Pour permettre ces applications, il faut des systèmes de compréhension de langage naturel, des systèmes de détection d'objets dans les images, et de compréhension d'évènements dans les vidéos... Toutes les méthodes que l'on développe sont basées sur des techniques d'apprentissage automatique, le machine learning (apprentissage profond).

Concrètement, que voulez-vous comprendre, savoir sur un post ? Sur une photo, par exemple, l'intelligence artificielle permet de reconnaître la personne et de la taguer facilement. Mais sur du texte ou un commentaire ?

Détecter le ton des posts et les articles satiriques

Si vous avez un sujet qui vous intéresse, un hobby, on peut déterminer si un texte parle de ce genre de sujet et choisir de vous le montrer même si ça n'a pas été partagé par vos amis –pour l'instant c'est encore ce qu'on prend principalement en compte pour vous montrer des contenus. On peut savoir aussi si le commentaire est positif ou négatif, si une news a un biais particulier, si une information est fiable ou non...

Vous utilisez des techniques de deep learning ? Pouvez-vous nous expliquer en quoi consiste cette méthode ?

Le machine learning (apprentissage automatique) représente des techniques qui permettent d'entrainer une machine à produire des réponses particulières, par exemple à reconnaitre des objets dans les images. Quand la machine fait une erreur, on le lui dit pour qu'elle s'ajuste automatiquement. On doit le faire sur des milliers, voire des millions d'exemples, pour que le système fonctionne. La technique consiste à transformer l'image ou le texte en une liste de représentations, de nombres, qui caractérisent le contenu de l'image. C'est très difficile à faire, on y travaille depuis des décennies avec un succès relativement limité. 

Les techniques de deep learning permettent d 'automatiser cette partie du processus : on peut donner directement le texte ou l'image et entraîner une machine beaucoup plus complexe qui apprend la tâche de A à Z. On appelle ça deep learning, ou apprentissage profond, parce que ces machines sont conceptuellement composées de plusieurs couches de traitement. La première couche détecte les pixels très simples dans l'image, pour savoir si elle a une orientation, des courbes particulières. Ce n'est pas fait à la main, c'est appris. La deuxième va assembler des motifs, des formes. La troisième va détecter des parties d'objets, la quatrième va les assembler... Il y a une hiérarchie, et quand on entraîne la machine, elle apprend automatiquement quels sont ces motifs, comment les distinguer ou détecter si deux images sont similaires ou comportent le même objet...

Qu'est-ce que l'intelligence artificielle pourra vous permettre de faire dans 10 ou 15 ans ?

Nous ne sommes pas sûrs de pouvoir réussir à mettre en œuvre les applications auxquelles on réfléchit en ce moment : elles nous permettraient de créer des agents intelligents avec lesquels on peut dialoguer, à qui on peut poser n'importe quelle question, qui deviendraient des compagnons numériques.

Un Siri en plus intelligent, en somme ?

Le problème de Siri, Cortana ou Google Now dans l'état actuel des choses, c'est que tous les dialogues que l'on a avec ces systèmes sont complètement scriptés. On ne peut pas du tout passer à l'échelle supérieure et les faire répondre à n'importe quelle question. Si on veut par exemple leur permettre de faire une réservation dans un restaurant, c'est compliqué. Il faut mettre en place un script différent pour chaque établissement, que des gens travaillent là-dessus... ça coûte cher, ça ne marche pas bien, ce n'est pas fiable. Nous, ce qu'on voudrait, c'est un agent vraiment intelligent qui comprend ce qu'on raconte, qui peut poser des questions s'il y a besoin de clarifications, qui comprend la personne avec qui il dialogue (il sait ce qu'elle sait, ce qu'elle ne sait pas, comment l'adresser) et qui est capable de produire les requêtes nécessaires pour produire l'info. C'est très compliqué et on n'a pas du tout la technologie pour ça, mais on essaie de travailler sur des composants de base qui nous permettraient de s'en approcher. On pourrait demander : "Est ce que tu connais un bon restaurant indien dans le quartier pas trop cher qui aurait de la place pour 5 personnes à 17 heures ?. L'agent répondrait : "j'ai trouvé celui-là mais ils ne sont pas disponibles avant 19h30, ça te va ? Par contre c'est un peu loin pour untel qui doit venir à vélo, il ne peut pas le garer à côté..." ça demande beaucoup de sens commun que les ordinateurs pour l'instant n'ont pas. Peut-être que ça n'aboutira jamais mais on poursuit une vision long terme avec ces projets : on sait que c'est le futur de l'interaction des gens avec Internet.

Facebook peut se permettre de réfléchir au futur lointain et à quoi ressemblera cette interaction. Par exemple, la société travaille aussi beaucoup sur la réalité virtuelle : c'est pour ça que Facebook a racheté Oculus. Avec son masque de réalité virtuelle, Oculus permet la téléprésence : son peut se mettre en communication avec quelqu'un à l'autre bout de la planète et avoir l'impression d'être dans la même pièce. Cela pose des problèmes de reconstruction du monde 3D, de reconstruction du visage puisqu'on a un Oculus sur le visage : il faudra réussir à le resynthétiser pour la personne en face.

Cette téléprésence, cela pourrait être une application proposée par Oculus dans quelques années ?

Oui, bien sûr. Les équipes d'Oculus travaillent là-dessus. On peut aussi imaginer parler dans sa langue et que cela soit traduit en temps réel, mais c'est aussi un problème compliqué qui n'est pas encore résolu. Les prototypes de Microsoft ou Google font de la traduction automatique qui n'est pas très bonne et de la synthèse vocale, mais il y a un délai assez important. Pour faire de la bonne traduction, il faut vraiment comprendre le sens du texte, d'où l'importance du deep learning.

Pourquoi avoir dédié un laboratoire à l'intelligence artificielle plutôt que de l'intégrer dans les équipes d'ingénieurs ?

"Les laboratoires de recherche dans l'industrie ont connu une période noire"

C'est parce que la nature de notre travail est très différente de ce qu'on fait en général dans des groupes d'ingénierie ou de développement de produits. On pousse la science et la technologie plus loin et cela requiert des compétences très différentes : les gens qu'on embauche sont des chercheurs, dont l'intérêt est d'inventer des principes nouveaux, des théories, des algorithmes puis d'essayer de les appliquer à des situations réelles. Très peu de sociétés ont des laboratoires de recherche avancés de ce type avec des ambitions similaires. Les seules qui en ont eu par le passé étaient des sociétés assez grosses, avec beaucoup d'argent, et qui étaient toutes dans des positions dominantes sur leur marché : AT&T, avec Bell labs dont sont sorties des inventions multiples (transistors, cellules solaires, lasers, satellites de communication, fibres optiques, caméras CCD...), IBM, General Eletric. En France, il y a eu le Cnet, centre national d'études des télécommunications de France Télécom. Tous ces laboratoires de recherche dotés d'une vision du futur ont plus ou moins disparu. Il y a eu toute une période noire où ça a été très difficile de faire de la recherche dans l'industrie, puis il y a eu un petit renouveau avec Microsoft Research, au milieu des années 1990, et plus récemment avec Google, puis maintenant Facebook.

Le laboratoire de Google est-il aussi développé que celui de Facebook ?

Ils travaillent beaucoup en machine learning, en compréhension de texte, en connaissance de la parole... Récemment, Google a racheté Deepmind, qui emploie d'ailleurs beaucoup de mes anciens étudiants. Google est dans une bonne position pour la recherche en intelligence artificielle, mais jusqu'à récemment les chercheurs étaient trop intégrés aux groupes de produit et ils ne pouvaient donc pas se permettre de faire de la recherche à long terme. Très récemment, ils ont réorganisé la recherche pour rendre les chercheurs plus indépendants... Un peu à cause de nous en fait, parce qu'ils commençaient à perdre des employés que l'on débauchait !

Yann LeCun est le directeur de la recherche en intelligence artificielle à Facebook depuis décembre 2013 et professeur à l'Université de New York depuis 2003. Diplômé de l'Ecole supérieure d'ingénieurs en électrotechnique de Paris, il est titulaire d'un doctorat de l'Université Pierre et Marie Curie. Après un post-doctorat à l'université de Toronto, il rejoint le laboratoire Bell de AT&T en 1996. De 2012 à 2014, il a été le directeur et fondateur du Center for data science de l'université de New YorK.