Texte, image, voix : ces IA gratuites qui rivalisent avec les solutions payantes
Hugging Chat, Whisper, Stable Diffusion… Voici les alternatives open source aux meilleures IA du marché.
L'IA accessible à tous, c'est possible en 2024. Parallèlement aux acteurs propriétaires de l'IA générative, l'écosystème open source s'est considérablement développé ces 24 derniers mois. Les alternatives gratuites sont aujourd'hui quasiment aussi performantes que leur équivalent propriétaire. Le JDN dresse la liste des meilleurs outils et modèles d'IA gratuits du marché, pour la génération de texte, d'image ou encore la transcription.
Hugging Chat : l'alternative à ChatGPT
Hugging Chat s'impose comme l'une des alternatives open source les plus prometteuses à ChatGPT. Développé par Hugging Face, le chatbot peut être configuré avec plusieurs modèles de pointe : Llama-3.1 70B de Meta, Command R+ de Cohere, Qwen2.5-72B (de Qwen), Llama-3.1-Nemotron 70B de Nvidia, Llama-3.2-11B Vision de Meta, Hermes 3 de NousResearch, Mistral Nemo de Mistral AI et enfin Phi 3.5 de Mistral AI. Pour du résumé ou de la génération de texte, Llama-3.1 70B est à privilégier. Pour envoyer des images à analyser au modèle, utilisez Llama-3.2-11B.
Au fil des derniers mois, Hugging Chat s'est véritablement développé. Il est possible de créer ses propres bots personnalisés et d'utiliser des outils, comme avec ChatGPT : recherche web, génération d'image, édition d'image, calculette… Il est également envisageable d'utiliser l'un des 37 outils (en novembre 2024) développés par la communauté.
Stable Diffusion : l'alternative à Dall-E et Midjourney
Si l'IA propriétaire domine encore dans la génération d'image, les modèles open source ont fait des progrès conséquents ces 12 derniers mois. Le plus populaire, Stable Diffusion, permet de générer des images dans une floppée de styles différents. La dernière version 3.5 offre une meilleure adhérence au prompt, des images plus détaillées et globalement des résultats plus réalistes. Sa force ? Il est possible de l'exécuter en local avec une configuration relativement raisonnable (avec la gamme RTX de chez Nvidia notamment).
Autre alternative, FLUX.1 Dev, développé par le laboratoire Black Forest offre de très bons résultats. FLUX.1 Dev propose une excellente qualité d'image. Il est particulièrement performant avec les prompts complexes et offre une très bonne compréhension des scènes détaillées. Du fait de son architecture hybride, le modèle est souvent plus rapide que Stable Diffusion à l'inférence mais exige plus de ressources matérielles.
Whisper : l'alternative aux modèles STT des clouds providers
Google Speech-to-Text chez Google Cloud, Amazon Transcribe chez AWS, Azure Speech to Text chez Microsoft… Les cloud providers dominent depuis longtemps la transcription par IA. Mais l'arrivée de Whisper chez OpenAI commence à rebattre les cartes. Disponible en open source avec des mises à jour régulières (au moins une fois par an), Whisper propose une alternative solide aux modèles propriétaires de speech-to-text.
Le modèle reste très performant, même avec des enregistrements audios comportant beaucoup de bruit et ce quelle que soit la langue. Sa seule limite ? Un vocabulaire limité notamment sur les champs lexicaux ultraspécialisés. (exemple : acronyme médicaux). Enfin, la dernière version Turbo (large-v3-turbo) offre une génération beaucoup plus rapide avec une perte de précision marginale (moins de 5%).
Pour inférer le modèle sans utiliser de serveur dédié ou une API payante, il est possible de faire tourner le modèle gratuitement sur les TPU de Google avec Google Colab.
Audio, vidéo : des modèles open source à la traîne
Le secteur de l'IA générative pour l'audio et la vidéo, beaucoup plus récent, manque encore de maturité. Plusieurs modèles propriétaires comme Runway ou Pika pour la vidéo, ou Suno AI et MusicFX pour l'audio, commencent à offrir des résultats acceptables. En revanche, l'open source est encore peu avancé. Les rares modèles performants, comme AudioCraft de Meta ou Stable Video Diffusion de Stability, sont encore proches de l'état de recherche et ne produisent aucun résultat véritablement qualitatif.
La gratuité, à quel prix ?
Malgré les moyens considérables des géants de la tech, l'IA open source rivalise aujourd'hui avec les solutions propriétaires dans plusieurs domaines. Ce succès est largement dû à Meta, qui a rendu accessible des modèles performants comme Llama, mais aussi à Hugging Face, dont la plateforme accueille chaque jour de nouveaux modèles améliorés par la communauté.
Le principal défi de l'IA open source ne réside plus tant dans la qualité des modèles que dans l'accès aux ressources d'inférence. L'hébergement et l'exécution des modèles représentent des coûts substantiels, et même les éditeurs open source qui proposent actuellement des plateformes d'inférence gratuites, comme Hugging Face avec son Hugging Chat, ne pourront peut-être pas maintenir cette gratuité indéfiniment.