Kyutai frappe fort avec Moshi, un assistant audio IA concurrent à GPT-4o d'OpenAI

Kyutai frappe fort avec Moshi, un assistant audio IA concurrent à GPT-4o d'OpenAI Le laboratoire d'intelligence artificielle financé par Xavier Niel, Rodolphe Saadé et Eric Schmidt a dévoilé les premiers résultats de ses travaux de recherche : moshi, un modèle multimodal audio similaire à GPT-4o.

Kyutai avance vite. Un peu moins de 10 mois de sa création officielle, Kyutai tenait une conférence de presse au sein de l'Ircam pour dévoiler les premiers fruits de ses travaux de recherche. Doté d'une enveloppe de 300 millions d'euros et de chercheurs issus des meilleurs laboratoires en IA du monde, Kyutai s'est donné pour mission de développer des technologies open source, et des méthodes en open research pour faire avancer l'ensemble de l'écosystème. La pépite française a ainsi dévoilé ce mercredi 03 juillet une IA générative multimodale française, utilisable on-device. Explication.

Moshi : un assistant audio polyvalent 

Kyutai présente ainsi, Moshi, son nouveau modèle d'IA audio polyvalent, fruit de 6 mois de développement intensif par une équipe de 8 chercheurs chez Kyutai et plus de 1000 GPU H100 chez Scaleway. Construit from scratch, Moshi se distingue par sa capacité à interagir en temps réel avec une latence minimale, de l'ordre de 160 à 240 ms. Très simplement, le modèle est capable de répondre en live à une interlocuteur humain qui interagit vocalement avec lui. Il est possible de l'interrompre et moshi se met à écouter et répond très rapidement à la reuquête. Lors d'une démonstration live sur scène, Moshi a impressionné par sa voix presque parfaitement humaine, sa compréhension des émotions et du ton du locuteur, ainsi que sa capacité à adapter son propre ton et même à chuchoter.

Démo en live de Moshi. © Kyutai

Moshi peut être utilisé à la fois en ligne, avec une latence de 200 à 240 ms, mais aussi directement on-device comme démontré sur un simple laptop (un Mac) lors de la conférence, grâce à des techniques de compression des poids du modèle par quantization. L'équipe travaille également sur des aspects de watermarking audio pour tracer les contenus générés. Au-delà de la prouesse technique, Moshi est véritablement un framework conversationnel, facilement adaptable à de nombreux cas d'usage. L'équipe a par exemple entraîné une version de Moshi sur le dataset Fisher, regroupant des conversations téléphoniques des années 90 et 2000, permettant ainsi d'interagir avec un agent conversationnel ancré dans le contexte de cette époque.

Un modèle basé sur un réseau neuronal unique 

Moshi se distingue par son approche innovante visant à fusionner les différentes étapes du traitement de la parole (détection de la voix, transcription, génération de réponse et synthèse vocale) en un seul réseau de neurones. 

Au cœur de Moshi se trouve un modèle de langage audio, entraîné directement sur des données audio annotées et compressées. Ce modèle prend en entrée de courts segments audio et est entraîné à prédire le segment suivant, lui permettant ainsi de capturer les caractéristiques acoustiques, les conditions d'énonciation, les hésitations ou les émotions. Moshi s'appuie sur un modèle de langage texte appelé Helium de 7 milliards de paramètres. Helium a été pré-entraîné à la fois sur des données textuelles et audio afin de saisir les liens entre ces deux modalités. Ce pré-entraînement permet de transférer les connaissances acquises sur le texte vers le modèle audio.

Pour permettre à Moshi de tenir une conversation, un fine-tuning a été réalisé sur des dialogues synthétiques. Ces dialogues ont été générés en entraînant d'abord Helium à produire des transcriptions de style oral, puis en les synthétisant avec un moteur de text-to-speech développé par Kyutai. La voix de Moshi a été développée en collaboration avec Alice, une actrice ayant enregistré de nombreux échantillons dans une multitude de styles et d'émotions. Ces données ont permis d'entraîner un moteur de synthèse vocale capable de supporter plus de 70 émotions ou styles de parole différents.

Pour permettre à Moshi de fonctionner en temps réel et de tenir dans la mémoire des appareils, Kyutai a développé son propre codec audio appelé Mimi. Ce nouveau codec est capable de compresser l'audio brut d'une manière extrêmement efficace : à qualité égale, un fichier audio compressé avec Mimi est beaucoup plus petit qu'un fichier MP3.

Une première démonstration dévoilée très prochainement 

Basé sur un prototype expérimental, un espace de démonstration sera publié très prochaionement, probablement depuis l'URL https://moshi.chat. Les interactions seront monitorées et les données seront conservées par Kyutai. Le modèle sera hébergé sur les serveurs de Scaleway en pour la France et de Hugging Face pour les Etats-Unis. 

Kyutai prévoit de publier prochainement un article scientifique détaillant les aspects techniques de Moshi, ainsi que les modèles et le code source associés. L'objectif est de permettre à la communauté de s'approprier cette technologie, de l'étudier, de l'adapter et de l'améliorer. Les modèles seront publiés sous une licence open source permissive de type Apache ou MIT, les détails exacts restant à définir en interne. Kyutai espère que la communauté scientifique et les développeurs s'empareront rapidement de Moshi pour le personnaliser et l'enrichir. Les cas d'usage envisagés sont multiples, notamment dans le domaine de l'accessibilité et de l'assistance aux personnes en situation de handicap.

Avec la présentation de Moshi, Kyutai semble avoir pris une longueur d'avance sur le géant américain OpenAI, dont la version audio de GPT-4o se fait toujours désirer.