Alexandre Défossez (Kyutai) "Kyutai créera plusieurs world models selon les cas d'usage"
Alexandre Défossez est cofondateur et chief exploration officer de Kyutai. A l'occasion de VivaTech, il fait le point sur les avancées du laboratoire depuis sa création en 2023.
JDN. Kyutai est passé de 6 personnes au départ à une équipe de 22, et d'un focus sur la voix à plusieurs axes de recherche. Comment le laboratoire a-t-il évolué en trois ans ?
Alexandre Défossez. Effectivement, on s'est lancés il y a trois ans à six ; on est 22 aujourd'hui, des postdocs aux stagiaires. Et on est très satisfaits de l'environnement de recherche qu'on a bâti. Notre laboratoire est un pont entre l'industrie et l'académique, et c'est sans doute la mission de Kyutai qui aura l'impact le plus durable : former des talents. Chez nous, ils accèdent directement à des sujets de pointe, mais arrimés à des applications concrètes (voix, vision, world models, robotique, conduite autonome), avec les ressources de calcul associées. On sème des graines qui finiront par germer : une génération qui innovera, en recherche comme en entrepreneuriat.
Sur les sujets de recherche, on a démarré par la voix, le speech-to-speech full duplex : une conversation comme la nôtre, où chacun parle à tout moment, se coupe, fait du backchanneling. Ca n'existait pas, et ça n'existe toujours pas vraiment. Il y a deux ans, on a sorti Moshi, une première mondiale, mais un prototype de recherche : pas de tool calling, pas de reasoning. On continue à travailler dessus. En parallèle, on a élargi le périmètre pour démontrer qu'on sait s'emparer d'autres thématiques et livrer des propositions à la pointe en un ou deux ans. Deux axes. La vision d'abord : avec MoshiVis, Moshi voit en image fixe, et on attaque maintenant la vidéo. Et le petit dernier de ces axes, c'est le world model.
Comment mesurez-vous l'impact de Kyutai, laboratoire par définition open science, et sans but lucratif ?
L'impact, c'est forcément un sujet complexe, parce qu'il se mesure surtout sur le long terme. Mais i y a des métriques immédiates : l'engagement sur les réseaux sociaux, le nombre de stars sur GitHub, les téléchargements sur Hugging Face. Ca donne une première mesure. Mais elle n'est pas toujours parlante, parce que pour faire du volume, il faut produire quelque chose qui s'adresse d'abord au grand public. On le fait, avec des démos. En revanche, sur des travaux plus long terme, ce sont plutôt les cercles académique et industriel qui prennent le relais. Là, le signal passe par les retours et les demandes de collaboration. On en a eu plusieurs : je ne peux pas citer de noms, mais des entreprises viennent vers nous pour construire sur notre écosystème. Et ça tient d'abord à un positionnement unique : à ma connaissance, on est le seul laboratoire de recherche de pointe qui soit entièrement ouvert.
Vos modèles sont-ils déjà utilisés dans des produits en production ?
Oui. On a déployé, avec CMA CGM et La Provence, la synthèse vocale de leurs articles de presse, sur notre techno. Côté collaborations, il y a CMA CGM, et avec Iliad on travaille surtout avec Scaleway autour de l'accès au compute, plus des discussions avec certaines applications du groupe, mais rien de public pour l'instant. Au-delà de nos propres produits, nos modèles sont repris par d'autres laboratoires et éditeurs d'IA. PersonaPlex de Nvidia est construit sur Moshi. Sur la partie speech, et pour ne citer que ceux que je peux nommer : Qwen TTS reprend notre modèle de TTS, et le modèle d'ASR de Mistral reprend notre ASR.
Et puis il y a notre codec Mimi, assez unique à sa sortie : 12,5 hertz, donc un frame rate très bas, idéal avec un transformer. Dès qu'une frame est générée, on sort l'audio instantanément, ce que ne faisaient pas les codecs existants. Il est téléchargé encore par millions chaque mois, et beaucoup d'entreprises s'en servent, souvent sans qu'on le sache. Sur le papier, Moshi est devenu une référence, une baseline aujourd'hui un peu datée, mais qui a ouvert un champ de recherche : des centaines de travaux cherchent à l'étendre.
Le world model est l'un de vos grands axes de recherche assez récent. Pourquoi s’être positionné sur ce créneau ? En quoi votre approche est-elle différente d’AMI de Yann Le Cun ?
Sur les world models, nous avons une collaboration avec General Intuition (start-up d'IA genevoise, ndlr). Concrètement, elle crée un dataset constitué de parties de jeux vidéo. Pour chaque joueur, on sait exactement ce qu'il fait au clavier et à la souris. C'est cette donnée-là qu'on utilise pour entraîner le modèle. Un world model sur des jeux vidéo, ça peut sembler abstrait, mais c'est un terrain idéal : de la donnée en quantité, et une variabilité maîtrisable.
L'objectif, c'est d’entraîner des agents, des IA capables d'agir et de décider dans un but donné, gagner la partie par exemple, ou coopérer dans un jeu multijoueur. Le but, c'est de généraliser. On ne passera pas directement du jeu vidéo à la réalité, mais une fois que ça marche sur le jeu, on sait, d'un point de vue purement algorithmique, ce qui fonctionne ou non. Cet algorithme, on l'applique ensuite beaucoup plus facilement au réel. Et ça ouvre des applications en conduite autonome et en robotique, parce que l'idée, à terme, c'est de faire un world model de la réalité et de simuler ce qui s'y passe.
Sur la différence avec AMI : eux ont un point de vue assez tranché sur l'architecture. Nous, là-dessus, on n'a pas de position figée, on fera ce qui marche le mieux. Pour le reste, on a peu de détails sur le problème exact qu'ils comptent attaquer.
L'objectif n'est donc pas un world model unique, mais plusieurs world models spécialisés selon les cas d'usage ?
Oui, il y aura plusieurs world models selon les cas d'usage : celui de la robotique ne sera pas du tout le même que celui de la conduite autonome. Mais ce qu'on espère, c'est que la compétence et l'algorithme, eux, se transfèrent, et qu'on puisse ainsi entraîner un nouveau modèle beaucoup plus vite. Un exemple : avec Moshi, on a commencé par du speech-to-speech. L'architecture qu'on a développée, on l'a ensuite déclinée pour tout un tas de problèmes, en transcription ou en text-to-speech. Au fond, un modèle d'IA, c'est des entrées, des sorties et un dataset d'entraînement. Pour passer de la robotique à la conduite autonome, on change les entrées et les sorties, et tout ce qu'il y a au milieu reste identique.
Comment parvenez-vous à continuer de financer le laboratoire ?
Le financement initial nous permet encore de tenir plusieurs années. C'est aussi l'avantage de ne pas s'être lancés dans une guerre totale des recrutements et du compute, on est beaucoup plus efficaces que pas mal d'acteurs. Ensuite, on explore des collaborations industrielles, et c'est un modèle intéressant. Si une entreprise veut explorer un sujet et que ça s'inscrit dans nos axes de recherche, on y va. On développe des modèles qui seront open source, financés par cette entreprise, simplement parce qu'elle a intérêt à voir le domaine se développer. Elle se dit que ça lui sera profitable. C'est comme cela qu'on travaille à pérenniser le laboratoire.