Avec Claude Sonnet 4.5, Anthropic reprend la tête sur le code

Claude Sonnet 4.5 excelle en code, en mathématiques, en orchestration agentique. Le prix en revanche reste toujours le même.

C'est une nouvelle percée dans l'IA pour le code. Après le succès de GPT-5 Codex introduit par OpenAI mi-septembre, de nombreux utilisateurs commençaient à délaisser Claude Code. Anthropic répond ce 30 septembre en dévoilant un modèle optimisé pour le code et le développement agentique : Claude Sonnet 4.5. L'éditeur américain en profite pour présenter un SDK agentique et une nouvelle expérience de développement dans Claude.

Plus autonome, plus précis

Claude Sonnet 4.5 n'est quasiment plus un LLM mais un véritable agent. Il est capable de coder en toute autonomie pendant plus de 30 heures sur des tâches complexes et nécessitant plusieurs étapes. Plus d'autonomie mais également plus de précisions. Sur le benchmark de référence en développement agentique Swe Bench Verified (des problèmes de code réels), Claude Sonnet 4.5 obtient un score de 77,2%, soit 2,7 points de plus que GPT-5 Codex. Il obtient ainsi le meilleur score, tous modèles confondus.

Assez logiquement, le modèle se démarque également en agentic terminal coding (50,0% contre 43,8% pour GPT-5 et seulement 25,3% pour Gemini). Plus original, il performe également très bien en analyse financière, où il domine largement ses concurrents (55,3% contre 46,9% pour GPT-5 et 29,4% pour Gemini). Enfin, dans l'ensemble, il apparaît plus robuste et équilibré que Gemini 2.5 Pro et GPT-5 sur l'ensemble des benchmarks STEM. A noter également que Claude Sonnet 4.5 est beaucoup plus performant dans les benchmarks que Claude Opus 4.1, pour un prix très inférieur (nous y reviendrons plus bas). Cursor parle d'ailleurs, dans la communication d'Anthropic, d'un modèle à l'état de l'art pour résoudre les problèmes de code complexe en autonomie.

Enfin, Anthropic affirme que son modèle est excellent en utilisation et manipulation d'interface. Il obtient un score SOTA de 61,4% sur OSWorld, benchmark testant la capacité du modèle à évoluer en autonomie sur un ordinateur. Grâce à une extension Chrome, les utilisateurs des formules Max peuvent d'ailleurs, dès aujourd'hui, laisser le modèle contrôler leur navigateur. Enfin Claude Sonnet 4.5 est le modèle Anthropic le plus aligné et le plus sécurisé, grâce à un focus de longue date d'Anthropic sur ces questions.

Un tarif dans la continuité

Côté prix, Anthropic reste dans sa politique tarifaire classique. Claude Sonnet 4.5 sera proposé dans l'API au même tarif que la précédente version de Sonnet. Soit 3 dollars le million de tokens en input pour moins de 200 000 tokens de contexte et 15 dollars en sortie (le million de tokens). Pour les contextes supérieurs à 200 000 tokens, il faudra compter 6 dollars en entrée et 22,50 dollars en sortie. Le prompt caching est toujours disponible et permet de réduire la facture.

La différence avec Opus 4.1 est notable. Pour rappel, Claude Opus 4.1 est facturé, tout contexte confondu, 15 dollars le million de tokens en entrée et 75 dollars en sortie. Ce dernier n'a plus vocation à être utilisé et doit être remplacé, conseille d'ailleurs Anthropic.

Un SDK pour construire des agents

Enfin, en parallèle, Anthropic annonce le lancement de Claude Agent SDK. Une plateforme pour développer des agents autonomes basés sur le fonctionnement interne de Claude Code. Le SDK contient des modèles d'orchestration, des outils, des modules de gestion des permissions et un monitoring production ready. C'est certainement l'un des meilleurs SDK pour tirer parti de la force de Claude pour des cas d'usage autour de l'agentique sans surcouche logicielle tierce.

Pour finir, Anthropic annonce une nouvelle expérience de développement directement intégrée dans Claude. Nommée, "Imagine with Claude", cette dernière permet de concevoir des applications de A à Z dans un environnement virtualisé. L'agent développe en temps réel sous les yeux de l'utilisateur, en utilisant un GUI et les capacités de contrôle d'interface de Claude Sonnet 4.5.

Sur le papier la démonstration est assez prometteuse, dans la réalité les cas d'usage sont encore assez flous. L'expérience est, pour l'heure, proposée aux abonnés Max.