Anthropic surprend avec Claude 3, un modèle d'IA plus puissant que GPT-4 et multimodal

Anthropic surprend avec Claude 3, un modèle d'IA plus puissant que GPT-4 et multimodal Anthropic a dévoilé ce 4 mars Claude 3, mise à jour majeure de sa famille de large language model phare. Avec des tarifs à l'aune des performances pour la version la plus puissante : en hausse.

Et de deux. Après s'être fait dépasser par Gemini Ultra 1.5, GPT-4 fait face à un nouvel adversaire : Claude 3. Annoncé par Anthropic ce lundi 4 mars, Claude 3 surpasse GPT-4 d'OpenAI sur une majorité de cas d'usage, selon les benchmarks. Comme Google avec Gemini, Anthropic a choisi de décliner son nouveau modèle sous trois versions différentes : Claude 3 Haiku, Claude 3 Sonnet, et Claude 3 Opus. Le premier offre une réponse avec un temps de latente minime, le second combine latence réduite et performance. Enfin, le dernier, Opus, offre les meilleures performances sur une multitude de tâches complexes. Les performances sont corrélées au coût des modèles.

© Anthropic

Opus, proche de l'intelligence artificielle générale ?

Opus et Sonnet, les deux modèles les plus performants, sont disponibles dès maintenant sur l'API de Claude dans 159 pays, dont la France. Haiku sera dévoilé prochainement. Opus, le plus "intelligent" de la nouvelle gamme performe mieux que l'ensemble des modèles de langage déjà benchmarkés publiquement. Anthropic évoque même des "niveaux de compréhension et de fluidité quasi humains sur des tâches complexes", non loin de ceux d'une intelligence artificielle générale (AGI). Les modèles de la famille Claude 3 présentent des capacités avancées en analyse et prédiction (forcasting), en création de contenu nuancé, en génération de code, le tout dans une grande variété de langues non-anglaises (Espagnol, Français, Japonais…).

Plus précisément, Claude 3 Opus établit de nouvelles références sur un large éventail de tâches cognitives selon plusieurs benchmarks. Opus surpasse ses pairs sur la plupart des benchmarks classiques de LLM. Sur des connaissances de niveau 1er cycle universitaire (aux Etats-Unis), Opus obtient un score de 86,8% (GPQA), au-dessus de GPT-4 à 86,4% et Gemini 1.0 Ultra à 83,7%. En mathématique, avec des problèmes de base (GSM8K), Opus obtient 95%, proche de GPT-4 à 92%. En raisonnement textuel (DROP), le modèle d'Anthropic surpasse GPT-4 (80,9%) avec un score de 83.1%.

Claude 3 surpasse GPT-4 dans les benchmarks. © Anthropic

Claude 3 signe l'arrivée de la multimodalité chez Anthropic

Elle était attendue de longue date et fait son apparition avec Claude 3. La dernière mise à jour de Claude introduit le support de la multimodalité. Claude 3 peut maintenant traiter des formats visuels : photographie, graphique, diagrammes… La vision affiche en revanche des performances en deçà de l'état de l'art. Claude 3 Opus fait mieux que GPT-4V (vision) dans l'ensemble des benchmarks mais moins bien que Gemini Ultra 1.0 dans la majorité des tests.

Une image contenant texte, capture d’écran, Police, nombreDescription générée automatiquement
Claude 3 fait mieux que GPT-4 mais moins bien que Gemini 1.5 en vision. © Anthropic

En termes de latence, Anthropic conseille d'utiliser Haiku pour obtenir des réponses le plus rapidement possible. Sonnet offre en revanche un bon compromis avec une vitesse de génération deux fois supérieure à Claude 2 et Claude 2.1. Enfin, Opus permet une génération aussi rapide que Claude 2 et Claude 2.1.

Anthropic normalise le contexte à 1 million de tokens

Après Google avec Gemini Ultra 1.5, Anthropic annonce le support prochain d'un contexte d'un million de tokens, pour certains utilisateurs, avec Claude 3. Pour l'heure, les trois versions différentes se contentent d'une fenêtre à 200 000 tokens. Avec des contextes aussi longs et en raison de multiples biais, les LLM ont tendance à oublier certaines informations du contexte initial. Pour limiter ces défauts les chercheurs ont travaillé longuement sur la robustesse des modèles pour des usages avec de très longs contextes. En témoigne les résultats impressionnants au benchmark Needle In A Haystack (NIAH) où Claude 3 affiche un taux d'accuracy supérieur à 99% avec de très longs documents.

Les grands contextes restent fiables avec Claude 3. © Anthropic

En parallèle, les équipes ont concentré leurs efforts pour maximiser la compréhension des prompts complexes. Claude 3 est également meilleur dans la génération de JSON, ouvrant la voie à de nouveaux usages comme la classification du langage naturel et l'analyse sentimentale. Enfin, la start-up a drastiquement réduit les problèmes générés par sa politique d'éthique un peu trop extrême. Claude 3 devrait générer beaucoup moins de faux positifs et accepter de répondre à d'avantage de requêtes tout en limitant les plus toxiques. La red team d'Anthropic a audité le modèle (conformément aux nouvelles exigences US) et les conclusions sont plutôt bonnes. Claude 3 n'augmenterait pas significativement les risques extrêmes (biologique, cyber...). 

Un pricing à la hausse

Avec Claude 3, les performances vont de pair avec le prix. Haiku est accessible à partir de 0,25 dollar le million de tokens en input et 1,25 dollar en output. Sonnet à 3 dollars le million de tokens en input et 15 dollars en output. Et Opus à 15 dollars en input (le million de tokens) et 75 dollars (oui, 75 dollars) en output. Pour comparaison, la version classique de GPT-4 s'affiche à 30 dollars en input (le million de tokens) et 60 dollars en output. Avec ce pricing, Anthropic affiche un haut niveau de confiance en son dernier poulain.

Modèle

Input

Output

Haiku

$0.25 / MTok

$1.25 / MTok

Sonnet

$3 / MTok

$15 / MTok

Opus

$15 / MTok

$75 / MTok

Claude 2.1

$8 /MTok

$24 / MTok

Claude 2.0

$8 / MTok

$24 / MTok

Claude Instant

$0.80 / MTok

$2.40 / MTok

GPT-4

$30.00 / MTok

$60.00 / MTok

En test, Claude 3 confirme sa supériorité sur GPT-4

Nous avons pu tester Claude 3 Opus dans l'interface de chat d'Anthropic. Dans la génération et le traitement du texte, Claude 2 et Claude 2.1 avaient déjà une avance considérable sur l'ensemble des LLMs propriétaires du marché. Avec Claude 3, Anthropic fait encore un pas en avant et offre un modèle quasi-humain dans son écriture. Le style est personnalisable à souhait et offre un champ lexical jusqu'alors inégalé. GPT-4 offre de bons résultats en génération de texte mais le résultat final est encore trop proche d'une écriture robotique (nombreuses répétitions, connecteurs logiques à foison…).

© Capture d'écran

En génération de code, Claude rattrape véritablement son retard sur GPT-4. Le modèle d'Anthropic propose un code sécurisé et presque aussi performant que GPT-4. Le code est également plus lisible et mieux commenté, ce qui facilite les débuggages et futures itérations. En bref, Claude apporte un code d'avantage sécurisé, plus lisible mais légèrement moins optimisé que celui produit par GPT-4, selon nos différents tests.

© Capture d'écran

Avec ses trois déclinaisons - Haiku, Sonnet et Opus - Claude 3 surpasse GPT-4 d'OpenAI dans la majorité des benchmarks et se rapproche d'une véritable intelligence artificielle générale. L'introduction de la multimodalité, bien qu'encore en retrait par rapport à l'état de l'art, ouvre de nouvelles perspectives d'utilisation. La gestion de contextes extrêmement longs et l'amélioration de la compréhension des prompts complexes renforcent sa polyvalence. Malgré une politique de tarification à la hausse, Anthropic démontre une confiance inébranlable en son dernier modèle.