Vidéo, audio… Les surprenantes capacités multimodales de Gemini 1.5 Pro

Gemini 1.5 Pro est désormais disponible dans Vertex AI en version Beta. L'IA de Google démontre des capacités qui ouvrent la voie à de nouveaux cas d'usage.

Après le texte et les images, voici venus la vidéo et le son. Annoncée mi-février par Google, Gemini 1.5 Pro est disponible depuis le mardi 9 avril sur Vertex AI et AI Studio. Avec ce nouveau géant, Google fait un pas dans le domaine des large language model dotés d'une fenêtre de contexte de 1 million de tokens. Pour l'heure, seul Anthropic a dévoilé un modèle (Claude 3) d'une telle taille (disponible uniquement sur demande). Google et Anthropic sont donc, en avril 2024, les seuls à proposer des modèles de 1 million de tokens.

1 million de tokens : pour quel usage ? Passé les 200 000 tokens de contexte, qui permettent déjà de traiter l'équivalent texte d'un roman, les cas d'usage textuels sont peu nombreux. En revanche, pour des modalités plus lourdes, une taille de contexte supérieure est vitale. C'est le cas notamment de la vidéo ou du son qui génèrent des centaines de milliers de tokens pour être traités par un modèle. Avec 1 million de contexte, Gemini 1.5 Pro est ainsi capable de gérer de nouveaux formats, ouvrant la voie à de nouveaux cas d'usage. Le modèle de Google est actuellement capable de traiter une vidéo d'une durée d'environ une heure au maximum.

Comment Gemini tokenise l'audio et la vidéo

Gemini 1.5 Pro est un modèle construit sur une architecture mixture-of-experts. Cette dernière permet d'obtenir des résultats performants avec de moindres ressources. Dans la théorie, Gemini 1.5 Pro est capable de traiter jusqu'à 10 millions de tokens de contexte. Toutefois, passé le million de token, le taux d'accuracy du modèle se réduit rapidement. Google a donc préféré limiter, dans un premier temps, son modèle à 1 million de tokens. Malgré sa spécialisation dans les tâches long-contexte, Gemini 1.5 Pro conserve de très bonnes performances sur les tâches "de base" comme le raisonnement mathématique, scientifique, la compréhension multilingue ou la programmation, ont observé les chercheurs de Google. Ses performances sont souvent supérieures à celles du modèle Gemini 1.0 Ultra, considéré comme l'état de l'art, tout en étant plus efficace à l'entraînement et à l'inférence.

Pour traiter les vidéo, Gemini 1.5 Pro encode chaque image en tokens textuels, le tout à une image par seconde. La vidéo est ainsi représentée sous forme textuelle plus classique que le modèle est capable de comprendre. Pour l'audio, le processus est similaire : le son est découpé en segments de quelques secondes. Chaque segment audio est transcrit en texte à l'aide d'un modèle de reconnaissance vocal pré-entraîné. Les représentations textuelles de la vidéo, de l'audio et éventuellement d'autres modalités (texte) sont concaténées pour former une longue séquence de tokens. Enfin, à partir du contexte multimodal, le modèle génère une réponse textuelle en utilisant ses capacités de génération de texte.

Des capacités multimodales bluffantes

Dans le cadre de cet article, nous avons pu tester Gemini 1.5 Pro depuis Vertex AI. Pour ce test, nous utilisons une température de 2 et une limite de 8192 tokens en sortie (limite par défaut). Il existe deux moyens de donner au modèle des fichiers volumineux : l'upload direct en local depuis le PC pour les fichiers de moins de 7 Mo et l'upload depuis Cloud Store pour les fichiers supérieurs à 7 Mo. Pour les fichiers vidéo il est obligatoire dans 90 % des cas de passer par le Cloud Storage de Google.

Une image contenant texte, capture d’écran, logiciel, Page webDescription générée automatiquement — Gemini 1.5 Pro dans Vertex AI. © Capture d'écran / JDN

Pour ce premier test, nous adressons à l'IA une vidéo MP4 de 14 minutes, de l'ouverture de la keynote principale de Google Cloud Next 24'. Le fichier nécessite 241 605 tokens. Nous demandons à l'IA de résumer avec détails la vidéo et de produire par la suite un rapport complet des principales annonces. Le modèle répond en moins d'une minute (un délai assez réduit par rapport aux premiers tests au lancement de Gemini 1.5 Pro dans Vertex AI).

Une image contenant texte, capture d’écran, document, PoliceDescription générée automatiquement — Prompt : Génère un résumé détaillé de la vidéo. Génère ensuite un rapport complet de toutes les annonces. © Capture d'écran / JDN

Le rapport généré par Gemini est fiable. La structure est claire, et l'ensemble des annonces présentes dans la vidéo sont retranscrites avec une très bonne précision. Seule une petite erreur temporelle vient se glisser : l'IA identifie l'évènement en 2023 alors qu'il s'agit de l'édition 2024. Une erreur courante des LLMs.

Plus complexe, nous soumettons à l'IA une vidéo sans son d'un dessin animé de 1mn 15 (22 427 tokens). Sera-t-elle capable de comprendre l'histoire sans transcription des paroles ? Le modèle prend environ 20 secondes pour formuler sa réponse. Le résultat est globalement positif. A partir uniquement de cette simple séquence, le modèle a eu la capacité d'identifier avec justesse, le style graphique, les principaux traits de caractères des personnages et une partie du scénario principal. Toutefois, Gemini 1.5 hallucine et ajoute de nouveaux éléments inexistants dans la vidéo d'origine. De même, le modèle identifie une piste musicale qui n'existe pas dans le fichier d'origine.

De manière plus générale, en vidéo et selon nos différents tests, Gemini 1.5 Pro est excellent lorsque le fichier combine images et sons. Avec une vidéo sans éléments sonores, le modèle connait quelques difficultés. Une mise à jour légère pourrait corriger cette première version Beta.

Gemini 1.5 Pro est également capable de traiter des fichiers audios. Pour tester les capacités du modèle, nous adressons un enregistrement sonore d'une table ronde organisée avec le CEO de Google Cloud lors de Next 24' de 27 minutes (49 290 tokens). Nous questionnons l'IA sur le contexte de cet échange, les différents interlocuteurs et le contenu des discussions. Le résultat est tout simplement bluffant. Gemini 1.5 Pro est parvenu à identifier avec précision les principaux sujets abordés lors de la conférence, les différents interlocuteurs. Il parvient même à extrapoler le contexte et comprend qu'il s'agit de Google Cloud Next.

Une image contenant texte, capture d’écran, Police, documentDescription générée automatiquement — Prompt : Quel est le sujet de la discussion ? Combien distingues tu d'interlocuteur ? Résume étape par étape toute la séquence. Extrapole et donne le contexte possible de cet échange. © Capture d'écran / JDN

Plus complexe, nous décidons de pousser Gemini 1.5 Pro dans ses retranchements en lui donnant à analyser un extrait audio de l'Eté des Quatre Saisons de Vivaldi (5000 tokens pour 3 minutes). Nous demandons à l'IA d'analyser le style et les différents instruments représentés. En moins de 15 secondes, Gemini répond. Il parvient à identifier plusieurs instruments joués au sein du morceaux mais en hallucine plusieurs autres. De même, le style final (électronique/dance) est erroné. Un test complexe qui démontre les limites de l'analyse audio.

Une image contenant texte, capture d’écran, document, menuDescription générée automatiquement — Prompt : Analyse cet extrait audio. De quoi s'agit-il ? Décris précisément l'ensemble des éléments et instruments potentiellement représentés. © Capture d'écran / JDN

Gemini 1.5 : une excellente vitrine pour Google

Gemini 1.5 Pro est un excellent modèle pour analyser des fichiers audio et vidéo. Le modèle parvient à identifier avec précision les principaux éléments de contexte, les interlocuteurs et le contenu des discussions. Toutefois, lorsqu'il ne peut s'appuyer sur des éléments textuels, il est préférable de fournir au modèle des éléments de contexte supplémentaires pour l'aider à mieux comprendre le contenu. Malgré quelques erreurs et hallucinations, Gemini 1.5 Pro reste un modèle prometteur qui ouvre de nouvelles perspectives pour l'industrie, d'autant plus qu'il ne s'agit encore que d'une version bêta.

Les cas d'usage potentiels pour les entreprises sont nombreux : analyse automatisée de réunions, transcription et résumé de conférences, extraction d'informations clés à partir de vidéos de formation, génération de sous-titres, et bien plus encore. Les capacités multimodales de Gemini 1.5 Pro pourraient révolutionner la façon dont les entreprises gèrent et exploitent leurs contenus audio et vidéo.