Voici comment transcrire gratuitement et facilement des enregistrements audio grâce à l'IA

Le JDN met à votre disposition les outils nécessaires pour utiliser le modèle Whisper d'OpenAI. Une méthode à la portée de tous.

A l'ère de l'IA, la transcription de fichiers audio n'a jamais été aussi simple. Encore faut-il savoir choisir le bon modèle audio to text. HappyScribe, Trint, Sonix… La majorité des services en ligne permettant de transcrire de l'audio sont payants ou offrent une version gratuite avec un temps limité. Pour autant, il n'est pas obligatoire de recourir à l'une de ces nombreuses sociétés. Avec la multiplication des modèles d'intelligence artificielle publiés en open source, la transcription gratuite devient à la portée de tous. A l'heure actuelle, un des modèles les plus populaires et les plus efficaces du marché est sans aucun doute Whisper.

Des modèles de différentes tailles

Développé par les équipes d'OpenAI, le modèle est présenté pour la première fois en septembre 2022. La première version de l'IA a été entraînée sur 680 000 heures de contenus audios issus du web, dans une grande variété de langues. Le modèle déjà très efficient a bénéficié d'une mise à jour conséquente, Whisper V3, annoncée en novembre à l'occasion de la DevDay OpenAI. Pour l'occasion les chercheurs de la start-up cofondée par Sam Altman ont entraîné le modèle sur 1 million d'heures de contenus audio labellisés et 4 millions d'heures d'audio collectées par la V2. Cette dernière mouture est encore plus efficiente et offre un gain d'accuracy de l'ordre de 10 à 20%.

Précisément, le modèle se présente sous la forme de 7 versions différentes :

tiny avec 39 millions de paramètres
base avec 74 millions de paramètres
small avec 244 millions de paramètres
medium avec 769 millions de paramètres
large avec 1550 millions de paramètres
large V1, V2 et V3 avec 1550 millions de paramètres

Les modèles tiny, base, small et medium ont été entraînés seulement sur des données anglaises pour la reconnaissance vocale. Ils sont ainsi moins pertinents pour de la transcription dans d'autres langues. En revanche, les modèles larges (V1, V et V3) ont été formés en multilingue et sont capables de transcrire et traduire dans plus de 99 langues (dont le français). Outre les langues supportées, l'inférence des modèles demande, selon leur nombre de paramètres une quantité plus ou moins importante de ressource matérielle.

Les différentes version de Whisper. © Capture d'écran

Google Colab, pour exécuter des modèles dans le cloud

Dans la majorité des cas, sauf rares exceptions, il est impossible de faire tourner le modèle directement sur un ordinateur particulier. L'inférence demande une quantité trop importante de VRAM (mémoire vive d'un GPU) et plus généralement de ressources matérielles. Toutefois, une solution existe. La plateforme Google Colab permet justement d'exécuter du code Python et des modèles d'IA ou de machine learning. La version gratuite de la plateforme permet par défaut d'utiliser un GPU NVIDIA T4. La transcription n'est pas très rapide mais prend généralement moins de 10 minutes pour un fichier d'environ 30 minutes. En souscrivant un abonnement (de 11,10 à 50,70), il est possible d'obtenir des GPU plus rapides (V100 ou A100) et de réduire drastiquement le temps de transcription.

La prise en main de l'interface Google Colab est simple. Il suffit de créer un espace de code, de le compléter avec du Python et de lancer l'exécution. Pour l'occasion et pour des questions de simplicité, nous avons créé une instance Google Colab partageable avec un code déjà fonctionnel. Le script très simple utilise le modèle large V3 de Whisper pour la transcription. Plus précis, et capable de mieux déchiffrer des expressions complexes, le modèle est idéal. Pour utiliser le Collab, il est nécessaire de créer une copie du script dans votre Drive Google, pour des raisons évidentes de confidentialité (le document est accessible publiquement).

Etape 1 : enregistrer la copie du Colab dans Drive. © Capture d'écran

Une transcription en trois étapes

Transcrire un fichier audio est ensuite très simple et rapide. Il suffit d'uploader son fichier en utilisant la barre d'outil à gauche, de renommer le nom du fichier audio dans le code et enfin de lancer l'exécution. Dans le détail, le code va, premièrement, installer le modèle Whisper d'OpenAI et la suite FFmpeg de traitement audio. Après quelques minutes, le modèle se lance et commence à transcrire votre fichier audio. Une fois la transcription terminée, une petite coche verte apparaît à côté du script et votre navigateur est censé vous envoyer une notification. Vous n'avez alors que quelques minutes pour récupérer le fichier txt de transcription (dans le menu de gauche). Une fois le délai écoulé, Google déconnecte l'unité Google Colab de son cloud, pour économiser des ressources.

Les différentes étapes pour transcrire un fichier. © Capture d'écran

Bien que cette technique apporte une traduction de qualité, le temps de transcription peut devenir rapidement long avec des fichiers audio très longs. Pour optimiser le temps d'exécution du programme, une quinzaine d'utilisateurs GitHub ont lancé en octobre 2023 "Insanely Fast Whisper", une version optimisée de Whisper pour la transcription rapide. Les développeurs assurent que cette version est capable de transcrire un fichier audio de 150 minutes (environ 2,5 heures) en moins de 98 secondes. Testé à plusieurs reprises par nos soins, le modèle réduit significativement le temps de transcription. En revanche, il est, selon nos constatations, beaucoup moins précis que la version classique de Whisper large v3.Nous avons implémenté le code dans un autre Google Colab, également accessible publiquement. La procédure de transcription reste exactement la même qu'avec la version classique.

Pour une transcription détaillée et précise (comme une interview), nous recommandons d'utiliser la version classique de Whisper. En revanche pour la transcription d'une conférence, d'un long meet, ou d'un fichier audio très longs, Insanely Fast Whisper sera davantage conseillé.