IA : la nouvelle technique pour des transcriptions beaucoup plus précises et rapides
Les architectures de modèles évoluent et les pratiques suivent. Bien que Whisper d'OpenAI soit encore largement utilisé dans les entreprises, il n'est plus le meilleur modèle de transcription du marché. Les nouvelles approches intégrant le traitement des différentes modalités au sein d'un même réseau neuronal permettent des transcriptions plus fiables et nettement mieux contextualisées. Basés respectivement sur GPT-4o et GPT-4o-mini, les nouveaux modèles d'OpenAI promettent des performances de pointe. Explications.
GPT-4o-transcribe significativement supérieur
Introduits en mars, les nouveaux modèles de transcription GPT-4o-transcribe et gpt-4o-mini-transcribe affichent désormais des performances au-dessus de Whisper, même dans sa dernière version large-v3. Les deux modèles affichent un taux d'erreur par mot (WER - Word Error Rate, qui mesure le pourcentage de mots incorrectement transcrits par rapport à une référence) significativement inférieur aux modèles Whisper v2 et v3. Sur le benchmark FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech, un test multilingue couvrant plus de 100 langues avec des échantillons audio transcrits manuellement), GPT-4o-transcribe et gpt-4o-mini-transcribe démontrent une précision de transcription beaucoup plus robuste, quelle que soit la langue utilisée. En français par exemple, GPT-4o-transcribe affiche un taux d'erreur par mot (WER) de 3.46% contre 5,33% pour Whisper ou 4.84% pour Gemini 2.0 Flash.
Contrairement à Whisper, qui fonctionne comme un système de reconnaissance vocale autonome et spécialisé uniquement pour l'audio, ces nouveaux modèles intègrent le traitement de la parole directement dans le réseau neuronal principal de GPT-4o. Une unification des modalités sur le même réseau neuronal qui permet aux représentations audio de bénéficier des capacités linguistiques déjà existantes du LLM d'OpenAI (acquises lors du préentraînement). OpenAI assure ainsi que son modèle est particulièrement bon dans les scénarios complexes avec des accents variés, des environnements bruyants ou encore avec des vitesses d'élocution différentes.
Un nouvelle manière de transcrire
Alors que l'utilisation de Whisper était modulaire et unidirectionnelle, ce n'est plus le cas avec GPT-4o-transcribe et gpt-4o-mini-transcribe. En plus de prendre en entrée le fichier audio à transcrire, les modèles d'OpenAI acceptent un prompt textuel. Le but ? Donner au modèle du contexte pour que la transcription finale soit encore plus précise. Le modèle aura ainsi tendance à mieux orthographier les mots de certains champs lexicaux peu répandus. Le prompt peut également être utilisé pour utiliser un niveau de langage différent, conserver ou supprimer les mots de remplissage ("euh", "hmm") ou encore améliorer le contexte lors de la transcription d'un fichier séquencé en deux parties (en mettant en prompt la transcription précédente).
Pour automatiser la création du prompt contextuel pour GPT-4o-transcribe ou gpt-4o-mini-transcribe, il est possible de le faire générer par un autre modèle. Le premier modèle (Gemini 2.0 Flash par exemple) va prendre en entrée le fichier audio et donner en sortie une courte description. Cette dernière sera alors envoyée à GPT-4o-transcribe ou gpt-4o-mini-transcribe pour contexte. La transcription finale en sera ainsi encore plus précise et détaillée. Pour illustrer ce principe, nous avons testé la méthode dans un Google Colaboratory prêt à l'usage, disponible ici. Il suffit de renseigner ses clefs d'API OpenAI (OPENAI_API_KEY) et Google AI Studio (GOOGLE_API_KEY) dans les Secrets et d'exécuter le script.
Les limites de la transcription avec GPT-4o-transcribe
C'est l'une des principales limites pour les fichiers audio longs : le prix. Contrairement à Whisper, GPT-4o-transcribe et gpt-4o-mini-transcribe sont des modèles propriétaires et leur exécution n'est possible que depuis l'API d'OpenAI. Il faudra compter en moyenne 0,006 dollar pour une minute de transcription avec gpt-4o-transcribe et 0,003 dollar avec gpt-4o-mini-transcribe quand Whisper (en local) ne nécessite que le coût énergétique de la machine sur laquelle il est exécuté (négligeable, donc).
Pour un usage très basique, il reste donc plus économique d'utiliser Whisper en local. Mais pour des cas d'usage où la latence et la précision comptent (exemple : un agent vocal au téléphone), gpt-4o sera à privilégier. Il est également envisageable de réaliser un routage des modèles à utiliser en fonction de la nature et de la difficulté de l'audio à transcrire. Il est par exemple possible d'utiliser un modèle multimodal évaluateur pour décider quel modèle utiliser entre Whisper, gpt-4o-mini-transcribe et gpt-4o-transcribe en fonction du domaine ou la qualité de l'enregistrement.