On a testé Moshi, l'assistant IA audio de Kyutai, censé concurrencer ChatGPT

Moshi offre un premier aperçu de ce qu'un assistant audio intelligent pourrait être dans un futur proche. Quelques détails techniques restent à régler pour une plus grande accessibilité.

Aussitôt dévoilé, aussitôt publié. Contrairement à OpenAI qui ne cesse de repousser la sortie des fonctionnalités vocales de GPT-4o, le français Kyutai se risque à sortir une première démonstration de son assistant vocal Moshi très rapidement. Moins de trois heures après sa présentation devant un parterre de chercheurs en IA et de nombreux journalistes, l'IA vocale de Kyutai est publiée dans une version de démonstration accessible à tous. Premier retour d'expérience.

Comment accéder à Moshi ?

Moshi est disponible depuis ce mercredi 3 juillet depuis l'adresse suivante : https://moshi.chat/?queue_id=talktomoshi. Aucun compte n'est nécessaire pour tester l'IA. Kyutai le rappelle, il s'agit ici d'un modèle encore expérimental de conversation. "Prenez tout ce que l'IA vous dit avec des pincettes", recommande même l'équipe. L'IA est censée "penser" et "parler" dans le même laps de temps de façon plus ou moins transparente pour l'utilisateur. L'interface se présente sous la forme d'un démonstrateur somme toute très basique.

Pour débuter la conversation avec Moshi, il suffit de lancer une nouvelle session. Chaque session a une durée maximale de cinq minutes. Le service de streaming est directement hébergé en France chez Scaleway, et aux Etats-Unis chez Hugging Face. En France, depuis Paris, la latence est d'environ 160 à 300 millisecondes.

Une première expérience en demi-teinte

Moshi est disponible uniquement en anglais. Impossible de lui parler en français, l'IA ne le comprend pas. Plus difficile et comme annoncé par les équipes de Kyutai, l'IA ne comprend que les paroles dans un environnement très calme, sans bruit environnant. Pour une expérience optimale, il sera nécessaire d'utiliser un micro dédié et d'articuler, sans macher ses mots. Nos premiers tests, dans une cabine phonique avec un micro de PC standard démontrent déjà des difficultés de compréhension de l'IA. Dans certains cas, Moshi comprend du premier coup les échanges, dans d'autres, l'IA ne réagit même pas.

"Tell a story - Moshi"

Dans cette configuration, difficile de relancer ou de couper Moshi. Comme lors des démonstrations officielles lors de sa présentation, Moshi n'hésite pas à dérouler son discours sans écouter le locuteur humain. Difficile dès lors de tenir une conversation véritablement humaine. Des problèmes qui semblent s'expliquer par le manque de maturité du modèle - rappelons qu'il s'agit d'un modèle expérimental - mais qui peuvent aussi avoir en partie pour origine la forte sollicitation du service.

"OpenAI vs Kyutai - Moshi"

Une diction quasi-parfaite

De manière plus générale, la diction de l'IA est quasi-similaire à celle d'un humain. Moshi parvient également à changer légèrement de ton, avec une voix effrayante ou pour conter une histoire. En revanche Moshi ne parvient pas souvent à chuchoter.

L'IA rencontre des difficultés de compréhension et semble parfois bloquée par les filtres de sécurité, de manière aléatoire. Enfin les capacités de Moshi semblent parfois un peu limitées en matière d'imagination. Les réponses sont souvent très courtes et ne répondent pas toujours en totalité au prompt oral. Moshi semble également disposer d'un sens trop développé du premier degré et ne comprend pas certaines demandes. Exemple : "Peux-tu me raconter une histoire qui fait peur ?" Moshi répond alors "oui je peux" et attend une autre réponse de l'utilisateur pour commencer son histoire.

"10 facts about France - Moshi"

De manière plus surprenante nous avons expérimenté des artéfacts très étonnants ou Moshi semble littéralement prendre une voie fantomatique digne d'un film d'horreur.

"Creepy - Moshi"

Un choix audacieux

Moshi représente une avancée intéressante dans le domaine des assistants vocaux par intelligence artificielle. Bien qu'encore à un stade expérimental, avec de nombreux défauts et limitations, il donne un aperçu du potentiel de ces technologies. Kyutai a fait le pari de rendre disponible très rapidement une version de démonstration au public, malgré son caractère encore immature. Le laboratoire compte ainsi sur les retours de la communauté des utilisateurs pour identifier les problèmes et améliorer rapidement son modèle.

Un choix qui contraste avec l'approche d'OpenAI, qui multiplie les démonstrations très convaincantes mais tarde à proposer un véritable produit sur le marché. Kyutai s'expose davantage en laissant les utilisateurs tester une version imparfaite, mais les retours d'expérience lui permettront sans doute de progresser plus vite.