Gemini 1.5, GPT-4 ou Claude 3 Opus : quel est le meilleur modèle pour quel usage ?

En quelques mois, les principaux LLM propriétaires ont vu leurs performances croître très rapidement. En avril 2024, les différences de qualité entre les principaux acteurs du marché sont minces.

La course aux modèles géants s'est durcie. Claude 3 Opus chez Anthropic, Gemini 1.5 Pro chez Google, GPT-4 Turbo (gpt-4-turbo-2024-04-09) chez OpenAI : l'état de l'art ne cesse d'évoluer en ce début d'année. Bien qu'ils aient des performances globalement similaires, chaque LLM sera plus adapté à une tâche donnée qu'à une autre.

Dans le cadre de cet article, nous avons décidé de tester les capacités des modèles sur trois cas d'utilisation différents : la génération de code, le résumé et la génération de texte et, enfin, la traduction.

Génération de code : GPT-4 Turbo en première place

Dans la théorie et selon les benchmarks, GPT-4 (gpt-4-turbo-2024-04-09) fournirait les meilleures performances pour générer du code. La dernière mise à jour du modèle performe de manière excellente sur MATH (73,4 %). Devrait en résulter une bonne performance à générer et comprendre du code complexe. Dans la pratique, d'après nos tests, le code généré par GPT-4 est effectivement le meilleur. Lorsqu'on lui demande le code d'un générateur aléatoire de mot de passe par exemple, GPT-4 produit un code bien structuré et lisible avec des noms de variables de fonctions clairs. Le code est davantage sécurisé.

Vient en seconde position Claude 3 Opus avec un code bien structuré, mais moins bien commenté. Le code est très robuste. Gemini 1.5 termine le bal avec un code fonctionnel, mais moins bien structuré et commenté que ses homologues. Les noms de variables et de fonctions sont moins clairs et descriptifs. Le code est légèrement moins sécurisé.

Génération et résumé de texte : deux gagnants

Dans la théorie, le classement est encore le même en compréhension et génération de texte. GPT-4 Turbo arriverait en tête, suivi de Claude 3 et Gemini 1.5 Pro. GPT-4 semble se détacher dans les benchmarks par sa capacité à répondre de manière adéquate à la consigne initiale (prompt) avec un score de 86 % sur DROP.

En pratique, selon nos essais, Gemini 1.5 offre les résumés de meilleure qualité. L'IA de Google parvient à reprendre les informations les plus importantes de manière ultra-structurée. Le résultat final est véritablement supérieur à ceux générés par Claude 3 et GPT-4. Vient en seconde position GPT-4. Le modèle d'OpenAI parvient à retrouver l'ensemble des éléments clés et offre une bonne structure globale. De son côté, Claude 3 souffre d'un léger décalage et génère un résumé brouillon et peu ordonné.

En génération de texte, le classement change du tout au tout ! Claude 3 maîtrise parfaitement la langue de Molière et parvient à produire un texte humain, stylisé comme un véritable rédacteur aurait pu l'écrire. Vient ensuite Gemini qui offre une production tout à fait respectable. Le français est légèrement moins bon, mais reste tout à fait correct pour un LLM. La bonne structure du texte est un véritable plus. Enfin, GPT-4 Turbo propose le moins bon résultat. L'IA d'OpenAI a progressé et ne sème plus de connecteurs logiques à tout bout de champ, mais la structure des phrases reste encore très académique et robotique.

Traduction : GPT-4 se démarque

En traduction, l'écart de performance entre les différents modèles se réduit. Les LLM de Google, OpenAI, et Anthropic ayant été entraînés sur de vastes quantités de langues différentes, la principale différence devrait s'afficher dans la capacité de l'IA à maîtriser la nuance et l'interprétation en contexte du texte. En pratique, d'après nos évaluations, GPT-4 Turbo se démarque. Le modèle parvient à produire la meilleure traduction en utilisant un vocabulaire fin et précis.

La seconde place revient à Gemini et Claude 3. Impossible de véritablement départager les deux LLM. Il s'agit davantage d'une question (subjective) de style que de traduction qualitative ou non. Les deux modèles proposent une version tout à fait convenable. Claude 3 a une syntaxe plus proche de l'original avec des expressions calquées, quand Gemini 1.5 propose des tournures plus idiomatiques quitte à franciser davantage. Gemini peut parfois sembler un peu moins naturel et direct que Claude 3.

Claude 3, Gemini, GPT-4 : des modèles complémentaires haut de gamme

Lorsqu'il s'agit de tâches complexes, GPT-4 et Claude 3 sont davantage pertinents que Gemini 1.5 de Google. De même en compréhension de texte, GPT-4 offre les meilleurs résultats. Quand il s'agit de générer du texte, Claude 3 sera meilleur avec un langage plus proche de celui d'un rédacteur humain. Enfin pour la traduction, GPT-4 arrive en tête, mais les trois modèles proposent des performances quasi identiques. La différence se fera selon la préférence de ton et le registre à employer (technique ou grand public par exemple).

Le choix du meilleur modèle ne doit pas se baser uniquement sur les benchmarks du marché. Il est essentiel de tester les différents modèles sur son cas d'usage spécifique et de définir des métriques précises pour évaluer leurs performances. . Par ailleurs, la question du prix entre en compte dans la décision finale. Il est encore difficile de comparer le coût d'utilisation de ces modèles car Gemini 1.5 est toujours en version bêta et n'est pas officiellement commercialisé par Google.

Enfin, si la multimodalité est un critère important pour votre cas d'usage, il faudra y prêter une attention particulière. Tous les modèles ne proposent pas les mêmes capacités en termes de traitement des images, des vidéos ou des fichiers audio. Nous reviendrons plus en détail sur cet aspect dans un prochain comparatif exhaustif dédié à la multimodalité.