Joëlle Pineau (Meta) "Les robots domestiques se développeront commercialement dans 5 à 10 ans"

Entretien avec Joëlle Pineau, la directrice de FAIR, le laboratoire de recherche en IA de Meta, qui revient pour le JDN sur les avancées en robotique, l'impact des modèles open source et la trajectoire vers une intelligence machine avancée.

JDN. En février, FAIR, le laboratoire de recherche en IA de Meta que vous dirigez, a annoncé avoir réussi à décoder le langage cérébral avec une précision de 80%. Envisagez-vous l'intégration future de cette technologie dans des casques de réalité augmentée ?

Joëlle Pineau est directrice du laboratoire FAIR de Meta. © COPYRIGHT 2016 BSC PHOTO STUDIO

Joëlle Pineau. Une telle technologie pourrait effectivement remplacer le clavier pour des personnes en situation de handicap. Cependant, son utilisation nécessite le port d'un casque volumineux équipé de plusieurs capteurs, ce qui constitue une barrière importante à une adoption par le grand public. Il s'agit d'une avancée technologique notable, rendue possible grâce aux progrès de l'IA générative au cours des dernières années. Grâce à ces nouveaux modèles, nous pouvons décoder la formation de phrases à partir des signaux neuronaux captés par ces dispositifs. 

FAIR a récemment publié un benchmark baptisé Partnr pour Planning And Reasoning Tasks in humaN-Robot collaboration, afin de favoriser la recherche en robotique collaborative. Quels sont vos progrès récents dans ce domaine ?

L'objectif du benchmark Partnr est d'évaluer et d'améliorer la collaboration entre humains et robots dans des tâches quotidiennes. Ce benchmark à grande échelle comprend 100 000 tâches en langage naturel, conçues pour évaluer les performances des robots dans des environnements simulés. En début d'année, nous avons démontré les progrès de nos modèles de planification en les intégrant dans le robot Spot de Boston Dynamics. Ces algorithmes permettent aux robots de séquencer des actions, c'est-à-dire d'utiliser l'information disponible pour définir une séquence d'actions et accomplir une tâche, comme par exemple la saisie d'un objet. En octobre 2024, nous avions déjà présenté notre capteur tactile nommé Digit 360, développé en partenariat avec la société GelSight. Ce capteur permet de recueillir des données tactiles détaillées et, in fine, construire de meilleures représentations.

Sommes-nous loin de voir des robots nous assister dans les tâches du quotidien, comme le ménage ou la cuisine ? Meta pourrait-il commercialiser des robots domestiques ?

Il est évident que tout le monde attend avec impatience ce type de robots. Si je devais faire une prédiction, je dirais qu'il faudra patienter encore 5 à 10 ans. Concernant Meta, il est trop tôt pour faire des annonces, mais il est évident que la robotique est un sujet qui intéresse l'entreprise et qu'elle surveille de près.

Quel regard portez-vous sur l'IA Act, le règlement européen encadrant l'IA ? En tant que chercheuse, trouvez-vous cette législation trop contraignante ?

Ce n'est pas mon rôle de conseiller l'UE sur ce point, mais il me paraît important de trouver un équilibre entre protection et rapidité d'innovation. Aujourd'hui, nous ne pouvons garantir que tous les modèles que nous développons puissent être disponibles en Europe, en raison de la législation. Ce qui est certain, c'est que la fragmentation réglementaire à l'échelle des différents pays européens, qui ont chacun leur propre législation ou interprétation, ne facilite pas les choses et peut créer de l'incertitude chez les entreprises.

Le développement de modèles comme Deepseek a-t-il montré que les grands modèles de langage sont voués à devenir une commodité selon vous ?

C'est effectivement la trajectoire que l'on observe actuellement. Cependant, nous disposons d'assez peu d'informations sur l'entraînement du modèle, d'autant plus que l'on sait que Deepseek a été entraîné par distillation d'autres modèles, une technique qui permet un transfert de connaissances d'un modèle à un autre. Cela soulève ainsi la question de la responsabilité et de la transparence. Pour autant, même si ces grands modèles de langage deviennent des commodités, cela ne réduit pas, à mes yeux, l'intérêt d'entraîner des modèles plus larges et riches.

Développer l'AGI est l'objectif ultime d'OpenAI. Partagez-vous ce but chez FAIR ?

FAIR est une entité dédiée à la recherche fondamentale en intelligence artificielle. Notre mission n'est pas de développer un produit d'intelligence générale artificielle (AGI), mais de fournir les composants essentiels pour y parvenir. C'est comparable à une équipe automobile qui fournit les pièces nécessaires à la conception d'une Formule 1, sans livrer le véhicule complet. Pour atteindre l'AGI, nous nous concentrons sur notre mission vers une intelligence machine avancée (AMI), en collaboration avec les équipes de GenAI chez Meta, désormais l'une des cinq principales divisions de l'entreprise aux côtés de WhatsApp, Messenger, Facebook et Instagram.

Quelle est la différence entre AMI et AGI ?

L'intelligence artificielle générale (AGI) vise à développer des systèmes capables de réaliser n'importe quelle tâche intellectuelle qu'un humain pourrait accomplir. Notre modèle Llama peut être considéré comme notre véhicule vers l'AGI, tandis que Meta AI fait office d'interface produit pour nos utilisateurs.  L'intelligence machine avancée (AMI), quant à elle, englobe les principes fondamentaux permettant d'améliorer la représentation du langage et des images, ainsi que les capacités de planification et de raisonnement dans le monde réel. Il s'agit d'un objectif à long terme visant à développer des modèles capables de manipuler des connaissances abstraites, allant ainsi au-delà des simples modèles de langage.

Pour y parvenir, FAIR mise sur les World Models. Pourquoi ces modèles sont-ils la suite logique des LLM selon vous ?

Les modèles de langage prédisent des tokens (mots ou symboles) ce qui limite leur capacité à atteindre une intelligence véritablement généralisée. On peut ainsi considérer les modèles de langage comme un sous-ensemble des World Models, qui, eux, doivent être capables de prédire plus largement les résultats d'actions, la suite d'une image, d'une vidéo ou d'un son.

Actuellement, nous utilisons une architecture basée sur les transformers, bien adaptée à la prédiction et à la génération de séquences. Cependant, pour favoriser l'apprentissage des World Models, il sera nécessaire d'adopter de nouvelles architectures permettant, par exemple, de comprendre les relations de cause à effet. Il s'agit donc d'une évolution naturelle des LLM vers les World Models, indispensable pour permettre une prédiction plus multimodale.

Yann LeCun, chief AI scientist chez FAIR, travaille depuis 2022 sur l'architecture JEPA. Est-ce l'une des pistes suivies par vos chercheurs pour atteindre cet objectif ?

Effectivement, le projet JEPA (Joint-Embedding Predictive Architecture) est l'une des hypothèses qui pourrait favoriser le développement des World Models. Nos chercheurs basés à Paris, Montréal et New York travaillent actuellement sur ce sujet. La question n'est donc pas de savoir si l'on se dirige vers des World Models, car cela semble acquis, mais plutôt de déterminer quelle architecture permettra leur développement à grande échelle. Cela reste une question ouverte, et JEPA est bien l'une des principales pistes que nous explorons.

Le pôle parisien de FAIR a fêté cette année ses 10 ans. De quelle manière, les innovations issues de vos laboratoires profitent-elles commercialement à Meta ?

Tout d'abord, en améliorant continuellement les performances de notre modèle Llama. Ensuite, certains de nos travaux trouvent des applications spécifiques dans les différents services de Meta, en collaboration avec les équipes produit. Par exemple, les progrès réalisés sur les algorithmes d'interprétation d'images et de vidéos bénéficient directement aux lunettes connectées. La modération de contenu est un autre exemple alors que Mark Zuckerberg a récemment annoncé le développement d'un système de Community Notes, destiné à remplacer le programme de vérification par des tiers aux Etats-Unis. Plusieurs projets de recherche visent à concevoir un système de Community Notes capable de représenter la diversité des opinions et d'offrir un reflet équilibré des différents points de vue.

Comment décidez-vous de publier ou non vos travaux en open source ?

Meta génère ses revenus principalement à travers ses produits et n'a donc pas besoin de commercialiser ses modèles d'IA. Nos recherches contribuent à l'amélioration de Meta AI, dont l'interface est intégrée dans plusieurs produits de l'entreprise. Chez FAIR, notre objectif est de développer les meilleurs modèles d'IA généraux, ce qui bénéficie à Meta. Par exemple, Llama est un modèle utilisé en interne et adaptable selon les besoins. C'est précisément l'intérêt de l'open source. Prenons l'exemple du modèle Dino, publié en 2021 : il a été utilisé par Meta, mais aussi par d'autres entreprises pour des applications variées, qu'il s'agisse de la recherche contre le cancer ou la reforestation. D'une certaine manière, nous revenons aux origines de l'entreprise, puisqu'une partie des logiciels utilisés pour développer Facebook était constituée de protocoles open source

Joëlle Pineau est vice-présidente de la recherche en IA et directrice générale de FAIR, l'entité du groupe Meta dédiée à la recherche fondamentale dans l'intelligence artificielle. Elle est également professeure agrégée à l'Ecole d'informatique de l'Université McGill, où elle codirige le Laboratoire de raisonnement et d'apprentissage. Elle est titulaire d'une maîtrise en sciences et d'un doctorat en robotique de l'Université Carnegie-Mellon.