Claude 4 Sonnet et Claude 4 Opus excellent dans la génération de code et sur les tâches de software engineering.

Anthropic repasse devant dans la course à l'IA pour le code. La start-up de San Francisco présente ce jeudi 22 mai son nouveau modèle de référence : Claude 4. Le modèle arrive en deux versions différentes : Opus pour les tâches complexes et Sonnet pour l'usage quotidien. Anthropic l'affirme : son modèle est aujourd'hui le meilleur au monde pour les tâches de développement.

Claude 4 Opus peut travailler en autonomie "plusieurs heures"

Comme o3 d'OpenAI, Claude 4 Opus peut utiliser des outils externes (recherche web, exécution de code, connecteur MCP) avant de répondre à l'utilisateur. Le modèle est pensé pour les tâches complexes notamment autour du développement. Grâce à son raisonnement, Claude 4 Opus peut agir en autonomie pendant "plusieurs heures". Il est ainsi idéalement pensé comme un agent plus qu'un simple modèle.

De son côté, Claude 4 Sonnet reste plus proche d'une utilisation en mode chatbot mais excelle également en code et dépasse parfois Opus (notamment en software engineering) . Le modèle surperforme largement les capacités de 3.7 Sonnet, précédent modèle SOTA d'Anthropic. Le modèle parvient notamment à suivre plus finement les instructions qui lui sont fournies et dispose d'un raisonnement plus clair. Il excelle également en génération de code et génère un code beaucoup plus clair qu'avec 3.7.

Claude 4, excellent dans les tâches agentiques

Côté benchmarks, Claude 4 Opus et Sonnet excellent véritablement sur les tâches de génie logiciel, en plus de la génération de code. Sonnet établit de nouveaux records sur SWE-bench verified (capacité du modèle à résoudre des problèmes réels d'ingénierie logicielle) avec 80,2 % contre 72% pour le nouveau modèle Codex-1 d'Openai ou 63,2 % pour Gemini 2.5 Pro.

© Anthropic

Le modèle se distingue également par sa capacité de raisonnement, avec 83,8% sur les tâches de raisonnement complexe (GPQA Diamonds), contre 66,3% pour GPT-4.1 et 83% pour Gemini 2.5 Pro. Enfin, sur la partie développement agentique, Claude 4 Opus se démarque avec 50% sur Terminal-bench (capacité à exécuter en autonomie des commandes shell) en surpassant significativement Gemini 2.5 Pro (25,3%) et OpenAI o3 (30,2%).

Un pricing inchangé, toujours élevé

En termes de tarification, Claude 4 Opus et Sonnet maintiennent des prix relativement élevés par rapport au marché. Opus est facturé à 15 dollars pour un million de tokens en entrée et 75 dollars en sortie. Claude Sonnet 4 est moins onéreux, à 3 dollars pour un million de tokens en entrée et 15 dollars en sortie.

Toutefois, Claude 4 reste un excellent modèle notamment pour les développeurs. Sa capacité à travailler de manière continue pendant plusieurs heures et ses capacités en code en font un modèle de choix, que ce soit pour la génération simple de code ou en mode agentique autonome / semi-autonome.

Claude Code en disponibilité générale et une API musclée pour l'agentique

Enfin, Anthropic profite de l'annonce de Claude 4 pour muscler ses outils de développement. Claude Code est maintenant accessible en disponibilité générale. L'outil intègre dès aujourd'hui nativement l'accès aux dépots GitHub, comme Jules de Google ou Codex d'OpenAI. Les développeurs peuvent "taguer" Claude Code sur des pull requests pour qu'il corrige automatiquement des bugs, réponde aux commentaires de revue ou modifie tout simplement le code.

Parallèlement, l'API d'Anthropic s'enrichit de quatre nouvelles capacités : un outil d'exécution de code, un connecteur de serveurs MCP, un outil d'accès aux fichiers locaux, et la possibilité de mettre en cache des prompts jusqu'à une heure. L'objectif est clair : donner toutes les clés aux développeurs pour développer des agents avec le SDK d'Anthropic.