Anthropic publie Claude 4.5 Opus, le (nouveau) meilleur modèle de code au monde

Anthropic publie Claude 4.5 Opus, le (nouveau) meilleur modèle de code au monde Claude 4.5 Opus excelle en génération de code mais ne s'arrête pas là : le computer use, l'autonomie et l'efficacité font un bond en avant.

Si la course à l'IA était une roue infernale, nous serions aujourd'hui sur la case Anthropic. Après la sortie explosive de Gemini 3 Pro la semaine dernière, ce lundi 24 novembre, c'est au tour de la start-up de San Francisco d'annoncer l'arrivée de Claude 4.5 Opus. Le nouveau fleuron d'Anthropic dépasse ddésormais OpenAI, DeepMind et xAI sur les benchmarks de code.

Claude 4.5 Opus, un "ingénieur senior"

Après Haiku 4.5 (version légère) et Sonnet 4.5 (version intermédiaire), Opus 4.5 s'impose comme la déclinaison la plus lourde et la plus performante de la gamme Claude. Le modèle élève nettement le niveau sur quatre axes : le code, l'agentique, la bureautique avancée et le computer use. Selon Anthropic, Opus 4.5 aborde désormais les problèmes de programmation comme "un ingénieur senior", c'est-à-dire capable de gérer l'ambiguïté, de raisonner à travers plusieurs systèmes et de trouver seul les correctifs nécessaires.

Côté benchmarks, Claude 4.5 Opus s'installe clairement là où  Anthropic veut concentrer sa verticalité : le code et l'agentique. Sur SWE-bench Verified, Claude 4.5 Opus e à 80,9 %, devant Gemini 3 Pro (76,2 %) et GPT-5.1 (77,9 %). Sur le terminal coding (capacité à agir sur un terminal), il conserve l'avantage avec 59,3 % contre 54,2 % pour Gemini. Sur l'agentic tool use (les appels d'outils pour l'agentique donc), Opus atteint 98,2 %, soit la meilleure performance.

© Anthropic

En revanche, sur le raisonnement brut ou les tâches multimodales, Gemini reste légèrement devant : Opus pointe à 87,0 % en reasoning quand Gemini dépasse les 91 %, et à 60,7 % sur MMMU vision.  

Un modèle encore plus autonome 

Au-delà des performances brutes, Opus 4.5 marque surtout un bond dans l'autonomie agentique. Le modèle ne se contente plus de générer des plans : il les exécute et gère les éventuelles erreurs sans aucun problème. Dans les cas d'usage multi-étapes, il maintient le contexte, orchestre des sous-agents et sélectionne seul les bons outils, là où Sonnet 4.5 devait encore être guidé. Opus 4.5 serait ainsi un très bon orchestrateur de sous-agent. L'autre innovation vient de l'efficacité. Opus 4.5 atteint ses résultats en consommant nettement moins de tokens que les versions précédentes. A effort égal, il surpasse Sonnet en utilisant jusqu'à 76 % de tokens en moins. 

Sur les tarifs, Claude 4.5 Opus se facture 5 dollars l'input et 25 dollars en output par million de tokens, soit bien plus qu'un Gemini 3 Pro à 2 dollars en input et 12 en sortie, et même nettement au-dessus de GPT-5 (1,25 $/10 $). Un pricing qui reste donc attractif si l'on en croit l'optimisation de Claude 4.5 Opus. 

Des changements dans l'écosystème Claude

Dans sa logique de montée en puissance sur l'agentique, Anthropic pousse aussi ses intégrations produits. Claude for Chrome, jusqu'ici réservé à quelques testeur devient accessible à tous les abonnés Max (100 $/ mois). L'extension permet à Opus 4.5 d'agir directement dans le navigateur, d'ouvrir, de lire, de manipuler et de croiser des onglets pour exécuter des tâches complexes.

 Enfin Anthropic améliore également drastiquement l'un des principaux point de friction des chatbots : la gestion du contexte. Dans l'application Claude, Opus 4.5 résume maintenant automatiquement le contexte  quand c'est nécessaire. Très concrètement, les utilisateurs pourront poursuivre leur échanges sans perte d'information. Le principe est prometteur : une continuité quasi illimitée dans les discussions. Mais Anthropic reste discret sur la mécanique interne.    

Anthropic déploie dès ce 24 novembre son nouveau modèle dans l'application Claude, via l'API Anthropic, ainsi que sur les trois grandes plateformes cloud (AWS, GCP, Azure). S'il ne surclasse pas Gemini sur certaines verticales fondamentales (raisonnement pur, vision multimodale...) il consolide en revanche son statut de référence incontournable pour le code.