Comparatif des LLM propriétaires du marché : GPT-4o vs Claude 3.5 Sonnet vs Gemini 1.5 Pro
Quel est le meilleur LLM pour votre cas d'usage ? Popularisé avec l'apparition de ChatGPT en novembre 2022, les grands modèles de langage restent en 2024 les modèles d'IA générative les plus utilisés en entreprise. Après une année de prototypage intense, nombre d'entreprises commencent à entrer dans une phase de mise en production. Pour autant, il est impératif de rester attentif aux derniers modèles de pointe du secteur. A l'heure actuelle, OpenAI, Google et Anthropic tiennent le lead en proposant les trois meilleurs LLM professionnels du marché. A savoir GPT-4o, Claude 3.5 Sonnet, et Gemini 1.5 Pro. Benchmarks, qualité du texte généré en français, des résumés, du code généré, prix au million de tokens, taille de la fenêtre de contexte… Voici notre comparatif exhaustif.
Le comparatif des benchmarks
Benchmark |
GPT-4o |
Claude 3.5 Sonnet |
Gemini 1.5 Pro |
GPQA, Diamond (Raisonnement de niveau supérieur) |
53.6% |
59.4% |
NC |
MMLU (Connaissances de niveau universitaire) |
88.7% |
88.3% |
85.9% |
HumanEval (Évaluation de code) |
90.2% |
92.0% |
84.1% |
MGSM (Mathématiques multilingues) |
90.5% |
91.6% |
87.5% |
DROP, F1score (Raisonnement sur le texte) |
83.4 |
87.1 |
74.9 |
BIG-Bench-Hard (Évaluations mixtes) |
NC |
93.1% |
89.2% |
MATH (Résolution de problèmes mathématiques) |
76.6% |
71.1% |
67.7% |
GSM8K (Mathématiques de niveau primaire) |
NC |
96.4% |
90.8% |
Source des données : Anthropic / Deepmind
Claude 3.5 Sonnet se démarque dans plusieurs domaines, excellant particulièrement dans le raisonnement de niveau supérieur (GPQA), l'évaluation de code (HumanEval), les mathématiques multilingues (MGSM), et le raisonnement sur le texte (DROP). GPT-4o, quant à lui, montre une légère supériorité dans les connaissances de niveau universitaire (MMLU) et se révèle le plus performant en résolution de problèmes mathématiques complexes (MATH). Gemini 1.5 Pro, bien que généralement en troisième position dans ces tests spécifiques, maintient des performances solides, particulièrement en évaluations mixtes.
Pour rappel, ces résultats reflètent uniquement les performances théoriques et ne représentent pas nécessairement les capacités globales ou l'utilité pratique de ces modèles dans des applications.
Le comparatif des capacités et fonctionnalités
Le JDN a testé l'ensemble des modèles présentés. Voici son comparatif, selon les cas d'usage envisagés. En sachant qu'une étoile correspond à un résultat de faible qualité et cinq étoiles à un résultat proche de la perfection.
Cas d'usage |
GPT-4o |
Claude 3.5 Sonnet |
Gemini 1.5 Pro |
Qualité du texte généré en français |
*** |
**** |
*** |
Qualité des résumés de document |
**** |
***** |
** |
Qualité du code généré |
**** |
**** |
*** |
Ethique du modèle (filtre de sécurité) |
** |
***** |
**** |
Qui dit LLM dit en 2024 multimodalité et grande taille de contexte. Les trois modèles présentés ici offrent la plupart du temps de grande fenêtre de contexte et supportent plusieurs modalités.
Fonctionnalité |
GPT-4o |
Claude 3.5 Sonnet |
Gemini 1.5 Pro |
Modalité visuelle (image) |
X |
X |
X |
Modalité vidéo |
X |
|
X |
Modalité sonore |
X |
|
X |
Taille de contexte (tokens) |
128 000 |
200 000 |
2 000 000 |
La tarification
Pour ce qui est de la tarification, les choses se complexifient légèrement. Pour des raisons de simplicité nous évoquerons ici uniquement le pricing au million de tokens, principalement utilisé pour la modalité textuelle. Les modalités visuelles, audio et de vidéo étant très complexes à comparer (Lire ici).
Le prix d'un modèle se compose de l'input, l'ensemble des données envoyées avec le prompt et incluant les potentiels documents communiqués, et l'output, la sortie textuelle du modèle. Nous comparons ici les prix pratiqués par Anthropic, Google Cloud Console et OpenAI au sein de leur API.
GPT-4o |
Claude 3.5 Sonnet |
Gemini 1.5 Pro |
|
Coût de l'input au million de tokens (prompt + document) |
5 $ |
3 $ |
3.50 $ |
Coût de l'output au million de tokens (la sortie du modèle) |
15 $ |
15 $ |
10.50 $ |
Gemini 1.5 Pro de Google apparaît comme le modèle le moins cher parmi les trois comparés. Avec un coût de 3,50 $ par million de tokens en entrée et 10,50 $ par million de tokens en sortie pour les requêtes de moins de 128 000 tokens, il offre le prix le plus bas pour la génération de contenu. Cette tarification compétitive est avantageuse pour les entreprises cherchant à déployer des solutions d'IA à grande échelle tout en maîtrisant les coûts.
Comment choisir son LLM ?
Le choix du meilleur LLM dépendra largement des besoins spécifiques de chaque utilisateur ou entreprise. GPT-4o, Claude 3.5 Sonnet et Gemini 1.5 Pro excellent tous trois dans différents domaines, offrant chacun des avantages uniques.
Claude 3.5 Sonnet se distingue particulièrement pour la génération de texte de haute qualité en français et le résumé de documents, surtout lorsqu'il s'agit de contenus longs ou complexes. Sa grande fenêtre de contexte de 200 000 tokens et ses performances supérieures dans ces domaines en font un choix judicieux pour les tâches de traitement du langage naturel avancées.
Pour des tâches plus complexes comme l'analyse approfondie de données ou la génération de code, Gemini 1.5 Pro et GPT-4o semblent être les options les plus appropriées. Gemini 1.5 Pro se démarque par sa fenêtre de contexte exceptionnellement large de 2 millions de tokens, ce qui peut être un atout majeur pour l'analyse de vastes ensembles de données. GPT-4o, quant à lui, excelle dans la résolution de problèmes mathématiques complexes.