Joëlle Pineau (Meta) "Llama 3 devrait moins souffrir d'hallucinations et fournir des informations plus fiables"

Alors que Meta a présenté ce jeudi deux versions de son modèle Llama 3, le JDN s'est entretenu avec Joëlle Pineau, sa directrice de la recherche fondamentale en IA, qui révèle les ambitions du géant.

JDN. Meta a présenté hier les premières versions de son modèle Llama 3 avec la promesse de le rendre accessible à travers ses différentes plateformes via l'assistant MetaAI. Quelles sont vos ambitions ?

Joëlle Pineau est directrice de la recherche fondamentale en IA chez Meta. © COPYRIGHT 2016 BSC PHOTO STUDIO

Joëlle Pineau. Notre objectif a été de proposer un modèle performant, avec une orientation accrue vers le multimodal, par exemple en améliorant la compréhension des images, avec un accroissement de ses capacités multilingues. En termes de performance, Llama 3 devrait moins souffrir d'hallucinations et fournir des informations plus fiables alors que modèle Llama 2 refusait parfois de répondre à des questions en lien avec des sujets sensibles. Ce nouveau modèle, annoncé hier en deux versions de 8 et 70 milliards de paramètres, devrait ainsi pouvoir exprimer différents points de vue plutôt que de simplement refuser de répondre.

Pourquoi sortir différentes versions avec un nombre varié de paramètres ?

C'est avant tout pour une question de législation. Les modèles plus larges sont plus régulés, surtout aux US où le gouvernement a publié un Voluntary Commitment, Ce document réglementaire prend notamment en compte le nombre de Flops (Floating Points Operations, per Seconds, ndlr), à savoir le nombre de calculs effectués pour entraîner un modèle. Les attentes sont ainsi plus complexes pour les modèles de grandes tailles. Avec Llama 2, nous avions réalisé des versions à 7 milliards, 13 milliards et 70 milliards. Les petits modèles restent essentiels, car largement utilisés. Nous allons continuer de développer des modèles de tailles variées, tout en veillant à leur qualité et leur sécurité.

Pourquoi avoir choisi une démarche open source, contrairement à Microsoft ou encore Amazon, qui a récemment investi 3 milliards de dollars supplémentaires dans Anthropic ?

Miser sur l'open source peut, certes, permettre à des concurrents potentiels d'utiliser ces technologies, mais cela permet surtout à tout le monde de les améliorer. Il y a sept ans, qui aurait pu deviner que PyTorch, une bibliothèque logiciel basée sur la librairie Toch développée par Meta AI, allait être utilisée par la plupart des acteurs de l'industrie ? Désormais, lorsque nous recrutons des ingénieurs, ils connaissent la plupart du temps PyTorch et sont ainsi opérationnels immédiatement. En clair, ce choix de l'Open Source nous permet de gagner en productivité et en rapidité d'innovation, tout en bénéficiant à l'ensemble de l'écosystème.

Il n'y a donc pas de volonté chez Meta de commercialiser des modèles propriétaires ?

Ce n'est pas notre modèle d'affaires. Les modèles d'IA open source comme Llama ont vocation à être intégrés dans nos plateformes : Facebook, WhatsApp, Messenger, Threads, mais aussi nos lunettes connectées et casques de réalité virtuelle. Cependant, tous nos modèles ne sont pas disponibles en open source. Le plus souvent, cette décision est liée aux risques potentiels. Nous ne voulons pas être responsables de certaines utilisations, notamment pour des modèles de génération de voix qui sont aujourd'hui très performants et pourraient être détournés pour diffuser de la désinformation.

Comment fonctionne la collaboration entre les équipes produit de Meta et FAIR, la division de recherche fondamentale dans l'IA, que vous dirigez ?

Un grand nombre de modèles développés dans nos labos sont adaptés par les équipes produits de Meta. En 2018, nous avons ainsi développé des modèles d'IA performants permettant de comprendre le langage et les images. Ces derniers se sont montrés précieux pour améliorer par exemple la modération de contenus. L'autre usage concerne la recommandation, notamment des vidéos telles que les Reels. Les modèles développés chez FAIR permettent de mieux comprendre le contenu d'une vidéo afin de proposer des vidéos en adéquation avec les intérêts des utilisateurs. Cela motive nos chercheurs qui savent que leurs recherches ne vont pas s'arrêter à une publication dans un journal scientifique, mais pouvoir toucher près de 3 milliards de personnes à travers nos plateformes.

Quelles sont les relations entre vos équipes et les autres divisions de Meta ?

Pendant plusieurs années, nous avons collaboré avec différentes équipes spécifiques, dédiées par exemple à la modération de contenu, la publicité, etc. Depuis un an, Meta s'est doté d'une nouvelle division baptisée Meta AI qui supervise les sujets liés à l'IA générative et avec qui nous travaillons étroitement. Par exemple, nos travaux ont conduit à la création de Llama 1 et ce sont leurs équipes qui ont créé la version suivante. Même chose dans la vidéo où nos chercheurs ont développé Make-a-video, un précurseur de Emu créé ensuite par Meta AI. Depuis début 2023, une partie de nos chercheurs ont d'ailleurs intégré cette division.

Le transformeur est une architecture développée par Google en 2017. Comment expliquez-vous que ce soit OpenAI qui ait adopté avec succès cette technologie open source ?

OpenAI n'est pas une entreprise qui innove fondamentalement sur la technologie. Il n'y a qu'à regarder les transformeurs créés chez Google ou les modèles de base comme JEPA qui ont été développés dans nos laboratoires. Pour autant, il faut reconnaître à OpenAI cette capacité d'expérimentation et de mise à l'échelle rapide. Leurs équipes réussissent très bien à assembler et exécuter toutes les étapes sur le plan de l'ingénierie afin de scaler une idée, tout en apportant beaucoup de données et de compute. Encore une fois, nos modèles d'affaires sont différents. Aujourd'hui, OpenAI cherche toujours un marché à son produit GPT, pour lequel l'entreprise perd de l'argent. Notre avantage stratégique réside dans le fait de pouvoir intégrer ces modèles d'IA, comme Llama 3, au sein de nos produits.

Travaillez-vous sur le développement de modèles pré-AGI comme semble le faire OpenAI avec son modèle Q ?

Nous avons peu d'informations sur ce modèle Q. Cependant, nous explorons toute la gamme de technologies nécessaires pour développer ces capacités. Yann Lecun a mis en avant le potentiel du modèle JEPA (joint embedding predictive architecture, ndlr). Nous anticipons que ces modèles, ainsi que d'autres, évolueront avec de nouvelles idées et technologies. Le vrai défi de l'AGI est de créer une intelligence qui n'est pas limitée à une tâche spécifique. Si en 1997, l'intelligence générale était synonyme de battre des adversaires aux échecs, aujourd'hui, elle se focalise davantage sur le langage et l'interaction conversationnelle. Les modèles actuels, tels que GPT, ne comprennent pas encore des concepts comme la physique des objets ou le grounding. Il nous reste donc plusieurs années de travail avant de pouvoir développer une véritable intelligence générale.

Pourquoi pensez-vous qu'il faudra une décennie pour que le Metaverse devienne une réalité du quotidien ?

L'offre de contenu est encore limitée et majoritairement axée sur les jeux. Les casques VR, malgré les progrès importants, restent lourds. Je pense que les améliorations seront rapides, mais il faudra encore une dizaine d'années pour que s'immerger plusieurs heures par jour dans cet environnement virtuel devienne courant pour la majorité des gens. Ces changements nécessitent du temps, à l'image d'Internet qui a transformé le monde du travail une décennie après sa création.

Bloomberg a révélé qu'Apple travaille sur un robot domestique. Avez-vous des projets similaires chez Meta ?

Il y a effectivement eu beaucoup d'investissement l'an dernier dans le développement de robots humanoïdes. Cependant, nous n'avons pas l'ambition de commercialiser des robots domestiques. Nos efforts se concentrent sur l'amélioration de nos produits et la réalisation du métavers. Les travaux de notre équipe dédiée à la robotique en Californie ont plutôt vocation à nous aider à représenter des avatars ainsi que leurs mouvements mais aussi d'enrichir nos bases de données IA.

Par exemple, notre capteur Digit, disponible en open source, nous permet d'obtenir des données en lien avec le toucher, à savoir la sensation de friction et de pression. Ces données nous permettront sans doute de créer de meilleures interactions virtuelles entre des personnes et des objets.

Avec l'utilisation massive de données pour entraîner les IA, risquons-nous d'en manquer ?

Nous utilisons effectivement beaucoup de données, notamment textuelles, mais il reste d'importantes réserves, surtout dans les données multimodales. L'avenir pourrait résider dans les données synthétiques, créées par les IA pour leur propre entraînement. Il y a aussi toutes les données connexes qui ne sont pas encore pleinement exploitées, par exemple celles générées par des capteurs. Cependant, il est crucial de trouver un équilibre pour préserver la vie privée et le consentement autour de l'utilisation de données personnelles. Il ne faut pas aussi oublier le milieu artistique, que personne ne souhaite affaiblir. Il est primordial de trouver un modèle économique permettant de favoriser l'innovation tout en protégeant la rémunération et le travail des créateurs.

Joëlle Pineau a été nommée le 20 octobre 2022 au poste de directrice générale de FAIR, l'activité de recherche fondamentale de Meta dans l'intelligence artificielle. Elle codirigeait auparavant FAIR avec Antoine Bordes, qui se concentrera désormais sur la direction de FAIR EMEA Labs. Joëlle Pineau est professeure agrégée à l'Ecole d'informatique de l'Université McGill.