Yann Le Cun (Chief AI Scientist de Meta) "Meta a un plan pour créer une intelligence au moins aussi performante que celle des humains"

Avec le lancement de V-JEPA 2, Meta fait un pas de plus vers une IA capable de comprendre le monde réel et planifier des actions. Yann LeCun, chief AI scientist de Meta, détaille ses ambitions d'une IA capable de sens commun.

Yann Le Cun est le chief AI scientist de Meta. © Meta

JDN. Meta a présenté le 11 juin dernier V-JEPA 2 (Video Joint Embedding Predictive Architecture 2, ndlr). En quoi l'apprentissage auto-supervisé, sans étiquetage manuel, confère-t-il à V-JEPA 2 des capacités nouvelles ou supérieures ?

Il existe plusieurs types d'apprentissage : supervisé, par renforcement, non-supervisé et auto-supervisé. V-JEPA 2 est un modèle de 1,2 milliard de paramètres, basé sur l'architecture prédictive à encodage croisé JEPA que nous avons introduite en 2022. Son entraînement est auto-supervisé, ce qui signifie qu'il ne repose pas sur des annotations humaines.

Il comprend deux phases. La première est un pré-entraînement sans action, réalisé avec plus d'un million d'heures de vidéo et un million d'images issues de sources variées. La seconde phase est un entraînement conditionné par l'action, à partir de données robotiques. Par exemple, avec seulement 62 heures de données, le modèle apprend à intégrer les actions dans ses prédictions, ce qui lui permet ensuite d'être utilisé pour des applications robotiques.

En quoi l'architecture JEPA se distingue-t-elle des modèles de langage comme les LLM ?

Dans notre quête vers l'intelligence machine avancée baptisée AMI (Advanced Machine Intelligence), il est essentiel que les systèmes d'IA puissent apprendre comme les humains, planifier des tâches inédites et s'adapter à un monde changeant. Contrairement aux LLM qui prédisent du texte mot-à-mot, les modèles JEPA fonctionnent selon une architecture prédictive à encodage croisé, conçue pour comprendre et anticiper les dynamiques physiques à partir de vidéos.

Par exemple, si je tiens une fourchette verticalement sur une table avant de la pousser avec un doigt, on peut difficilement prédire exactement où elle tombera, mais on sait qu'elle va tomber. Ce type d'intuition physique laissant penser qu'un objet sans support stable va chuter, fait partie des compétences que JEPA permet de modéliser. Il s'agit moins de prédire précisément chaque pixel que de saisir la complexité du monde physique.

Concrètement, pourquoi JEPA est-elle mieux adaptée aux tâches physiques que les grands modèles de langage ?

V-JEPA 2 est le premier modèle de monde entraîné sur des vidéos, capable non seulement de compréhension, mais aussi de planification et de contrôle robotique dans des environnements inconnus, sans entraînement spécifique. Il permet par exemple à un robot d'interagir avec des objets jamais vus, en planifiant ses actions en zéro-shot.

"Il y a quatre grands problèmes à résoudre pour que les IA puissent accomplir des tâches complexes"

La grande différence entre les architectures JEPA et les LLM, c'est que JEPA n'est pas génératif. Il ne cherche pas à prédire tous les détails d'une vidéo, comme un LLM prédit des mots. Il construit une représentation abstraite de l'entrée, que ce soit en format vidéo ou autre, et effectue des prédictions dans cet espace-là. C'est ce qui le rend particulièrement adapté aux tâches physiques, où il ne s'agit pas de générer du contenu, mais d'anticiper des dynamiques du monde réel.

Vous avez critiqué les modèles de raisonnement type GPT-o1. Pensez-vous que l'approche "chaîne de pensée" soit une impasse pour l'IA agentique et croyez-vous que l''architecture JEPA soit la solution ?

C'est un pas de plus vers la solution. Plus largement, il y a selon moi quatre grands problèmes à résoudre pour que les systèmes d'IA puissent accomplir des tâches complexes comme on le souhaiterait. D'abord, comprendre le monde physique. Ensuite, disposer d'une mémoire persistante, ce que les LLM actuels n'ont pas. Troisièmement, raisonner sur des chaînes longues, ce que font difficilement les modèles actuels. Quatrièmement, planifier une séquence d'actions en vue d'un objectif. Enfin, j'ajouterais un cinquième point qui est la capacité à contrôler ces systèmes pour qu'ils suivent réellement les consignes qu'on leur donne.

Quels sont selon vous les grandes étapes à passer pour que l'IA devienne réellement agentique ?

Le modèle V-JEPA 2 est effectivement pensé pour l'IA agentique. Il peut s'appliquer à des usages robotiques mais les cas d'usage vont bien au-delà. Dans le cas de systèmes de dialogue, par exemple, cela peut permettre à l'agent de planifier ses réponses, comme pour enseigner quelque chose à son interlocuteur.

"Les agents IA devront eux aussi développer une forme d'intuition et de sens commun"

Comme pour les humains ou animaux, les agents IA devront eux aussi développer une forme d'intuition et de sens commun, avec trois compétences essentielles. D'abord la compréhension, pour reconnaître des objets, des actions ou des mouvements. Ensuite la prédiction, pour anticiper l'évolution d'une situation. Et enfin la planification, pour enchaîner les bonnes actions et atteindre un objectif.

Vous avez écrit dans un ouvrage que les robots intelligents ne deviendraient une réalité "qu'après avoir appris des modèles du monde leur permettant de planifier des actions complexes". Avec ces dernières avancées, s'en rapproche-t-on ?

Effectivement, j'avais fait cette prédiction il y a cinq ans en estimant qu'il faudrait une décennie. Il en reste donc environ cinq, et je pense qu'on est sur la bonne trajectoire. Les progrès sont nets, et V-JEPA va clairement dans le sens de nouvelles architectures capables de comprendre le monde physique et de raisonner. Le vrai débat, qui persiste surtout dans l'industrie plus que dans la recherche, c'est de savoir si on atteindra une intelligence de niveau humain simplement en entraînant des LLM avec toujours plus de données et de paramètres. Personnellement, je n'y ai jamais cru et je reste aujourd'hui encore plus convaincu que ce n'est pas la bonne voie.

Une étude récente menée par des chercheurs d'Apple semble vous donner raison, en mettant en avant que des modèles comme Claude ou O3-mini semblent incapables de raisonner pour résoudre des casse-têtes peu complexes…

De plus en plus de chercheurs partagent cette opinion. Nos collègues d'Apple ont testé des modèles comme Claude ou O3-mini sur des puzzles relativement simples, qu'un système classique de planification résoudrait facilement. Apple n'est pas le premier à s'y intéresser. Subbarao Kambhampati, chercheur à l'Arizona State University, a publié plusieurs travaux montrant que les LLM, dans leur forme actuelle, ne savent pas vraiment planifier. Ce qu'ils font, en réalité, c'est générer de nombreuses séquences de tokens, puis utiliser un second mécanisme pour sélectionner la meilleure. Il s'agit là d'une forme de raisonnement très rudimentaire.

Des projets comme Stargate UAE, une infrastructure de calcul IA d'un gigawatt sur 26 km², illustrent l'ampleur des investissements actuels. Est-ce que de telles infrastructures sont vraiment nécessaires pour faire avancer l'IA aujourd'hui ?

La majorité des infrastructures de calcul dans lesquelles les acteurs technologiques investissent, y compris Meta, concerne surtout l'inférence. Une fois qu'un modèle est entraîné, il faut énormément de puissance pour le faire tourner à grande échelle, pour que des milliards d'utilisateurs l'utilisent. L'entraînement, en amont, demande aussi des ressources importantes, mais dans des proportions moindres.

"La majeure partie de l'intelligence et de la connaissance humaine n'a absolument rien à voir avec le langage"

Certains acteurs, notamment ceux qui misent sur les robots ou les très grandes infrastructures, parient sur des avancées significatives dans les prochaines années pour justifier ces investissements.

Est-ce que d'autres laboratoires ou entreprises s'inspirent aujourd'hui de votre travail sur l'architecture JEPA ?

Les World Models deviennent un vrai sujet dans la communauté. Ceux qui s'intéressent à JEPA viennent plutôt de domaines comme la robotique ou la vision par ordinateur, et ne sont pas focalisés sur le texte. Ils savent que le monde réel est bien plus complexe et imprévisible et ils partagent cette idée que l'intelligence ne se résume pas au langage. En tant qu'humain, nous avons l'impression que notre capacité d'un raisonnement est liée à la capacité à manipuler des phrases, alors que c'est faux. La majeure partie de l'intelligence et de la connaissance humaine n'a absolument rien à voir avec le langage.

Quand vous parlez d'intelligence humaine en dehors du langage, à quoi faites-vous référence exactement ?

Ce sont toutes les choses que l'on apprend simplement dans notre vie de tous les jours. Nous ne nous rendons souvent pas compte que ces tâches sont complexes ou demandent de l'intelligence, alors on les banalise. C'est une erreur classique en informatique, connue sous le nom de paradoxe de Moravec. Par exemple, pourquoi un ordinateur peut-il battre un humain aux échecs mais un robot a du mal à empiler des objets ou à plier un t-shirt ? Parce que ces gestes, qui nous semblent simples, impliquent en réalité une compréhension fine du monde physique. La réalité est que le monde réel est compliqué à appréhender.

Est-ce que vous imaginez une coexistence durable entre LLM et architectures comme JEPA, selon les usages, par exemple en ayant recours aux LLM pour des tâches textuelles simples et à JEPA pour des tâches plus complexes ?

Non, je pense qu'à terme, un système remplacera l'autre. On aura un modèle capable de faire un peu tout, et celui-ci ne sera pas un LLM. Les LLM resteront utiles, mais comme une petite composante de ce modèle, pour la communication par langage notamment. Mais les véritables capacités dont on aura besoin, liées à la compréhension du monde physique, au raisonnement, à la planification, ou à la mémoire persistante, ne viendront pas des LLM. Ce modèle, un peu universel, ressemblera sans doute davantage à une architecture comme JEPA.

Les agents intelligents, que l'on présente comme étant capables de réserver l'intégralité d'un voyage, alimentent aujourd'hui les conversations. A quoi ressembleront-ils selon vous ?

Demander à une IA de planifier un voyage au Costa Rica, cela fonctionne déjà et c'est assez simple à construire. Il suffit de l'entraîner avec des itinéraires de gens qui ont visité les lieux touristiques du pays. Le LLM va ensuite simplement proposer des parcours similaires. Mais ce type d'exemple est trompeur, car tout le monde voyage plus ou moins de la même façon.

"Nous disposerons sûrement de systèmes d'IA dotés d'un sens commun dans les prochaines années"

Le vrai enjeu arrive ensuite, quand l'agent doit réserver un hôtel, constater qu'il est complet, en chercher un autre, etc. Je pense que beaucoup de ces tâches pourraient être accomplies dans une certaine mesure avec de l'ingénierie, sans nécessairement avoir des machines particulièrement intelligentes, mais simplement en travaillant en profondeur sur un type d'application ou un cas d'usage en particulier.

Vous imaginez donc des agents spécialisés sur certaines verticales ?

Sans doute, à court terme. Mais nous disposerons sûrement de systèmes d'IA dotés d'un sens commun dans les prochaines années, peut-être basés sur l'architecture JEPA. Cela ouvrirait la porte à énormément d'applications et usages qui n'auront plus besoin d'être spécialisés ou verticaux. Reprenons l'exemple du voyage. Il peut exister des contraintes particulières qui complexifient la tâche de réservation et qui nécessitent de faire appel à un certain sens commun que possèdent les humains. Par exemple, une personne ne souhaite pas prendre un certain type d'avion parce qu'elle en a peur, etc. Ces contraintes ajoutent de la complexité et impliquent d'avoir des modèles suffisamment malins pour pouvoir comprendre ces nuances comme un humain, et répondre à n'importe quelle question de cet ordre-là. Je pense que nous allons assister à une révolution dans ce domaine dans les 3 à 10 ans à venir.

Est-ce que ce type d'intelligence s'inscrit dans la notion d'AGI ?

Je n'aime pas l'utilisation du terme AGI. Tout simplement parce que celui-ci est censé désigner une intelligence du niveau humain et donc se baser sur l'hypothèse que l'intelligence humaine est générale. Or, l'intelligence humaine n'est absolument pas générale mais au contraire très spécialisée. Elle nous a suffi pour survivre au cours de l'évolution en tant qu'espèce mais elle est loin d'être générale. La preuve est que l'on se fait battre à plate couture aux échecs par un gadget électronique.

"Nous visons une Artificial Super Intelligence"

Nos capacités sont très développées dans certains domaines, et limitées dans d'autres. Et on ne sait toujours pas comment reproduire cela chez les machines.

Vous écrivez dans votre ouvrage "Quand la machine apprend" (2019) que vous pourrez considérer "votre carrière comme un succès lorsque nous réussirons à construire des machines aussi futées qu'un rat ou qu'un écureuil". A quel horizon cela vous semble-t-il atteignable ?

Il y a cinq ans, j'écrivais qu'on y parviendrait en une dizaine d'années. Il en reste donc environ cinq. Mais, attention, ce que je décris n'est pas ce qu'on dénomme AGI. Chez Meta, on parle plutôt d'ASI, pour Artificial Super Intelligence. Ce n'est pas forcément une intelligence "générale", mais une intelligence au moins aussi performante que celle des humains. C'est l'objectif que nous visons, et nous avons désormais un plan pour y parvenir. Ce chantier s'appelle AMI.

Seriez-vous devenu plus optimiste qu'il y a quelques années ?

Non. Simplement cinq ans ont passé depuis l'écriture de mon livre. Et nous avons désormais un plan pour parvenir à créer un système doté de capacités d'apprentissage et d'intelligence similaires à ce que l'on observe chez les humains et les animaux. Ce plan pourrait ne pas marcher. Mais alors que nous nous demandions autrefois comment y parvenir, nous commençons désormais à voir des résultats qui montrent que c'est possible, à l'image de ceux de V-JEPA 2. Nous n'avions pas cela il y a dix ans.

Vous avez affirmé plusieurs fois ne pas croire au scénario "Terminator", tout en reconnaissant les dangers potentiels de l'IA. En tant que chercheur, pensez-vous parfois à l'impact éthique ou sociétal des technologies que vous développez ?

Ma position, c'est que la technologie est neutre. Elle peut être utilisée de différentes façons, selon ce que l'humain en fait. Par exemple, l'une des technologies que j'ai inventées, les réseaux convolutifs, est utilisée aujourd'hui dans tous les systèmes d'assistance à la conduite des voitures vendues en Europe. On estime que cela réduit de 40% les collisions frontales. Elle sert aussi à analyser des images médicales pour détecter des tumeurs, notamment dans les mammographies. Dans ces deux exemples, elle sauve des vies.

Parallèlement, cette même technologie est aussi utilisée par certains gouvernements pour faire de la reconnaissance massive de visages. En bref, c'est à la société de choisir comment déployer la technologie afin qu'elle bénéficie le plus grand nombre et je ne me sens pas légitime de décider à sa place. C'est ici l'un de mes points de divergence avec certains de mes collègues : j'ai confiance en nos institutions démocratiques pour faire ce qui est juste.

Yann Le Cun est chief AI scientist chez Meta et professeur à temps partiel à l'Université de New York, où il est affilié au Center for Data Science. Pionnier du deep learning, il est notamment à l'origine des réseaux convolutifs utilisés en reconnaissance d'images, de vidéos et de la parole. Lauréat du prix Turing 2018 aux côtés de Geoffrey Hinton et Yoshua Bengio, il est membre de l'Académie nationale d'ingénierie des Etats-Unis et chevalier de la Légion d'honneur.