Grok-4, un nouveau succès dans les benchmarks pour l'IA d'Elon Musk

Grok-4 dépasse maintenant o3-pro d'OpenAI dans les benchmarks, jusqu'à présent meilleur LLM en matière de performances brutes.

C'est un nouveau succès pour xAI. La jeune start-up fondée par Elon Musk en mars 2023 publie une famille de modèles de raisonnement à la pointe des benchmarks. Présentée mercredi 9 juillet (jeudi 10 juillet heure de Paris), elle se décline en deux versions : Grok-4 et Grok-4 Heavy, qui mobilise plusieurs agents en parallèle pour résoudre des problèmes complexes. xAI revendique des performances supérieures aux meilleurs modèles d'OpenAI, d'Anthropic et de Google DeepMind.

Un focus sur le raisonnement

xAI a concentré ses efforts sur le raisonnement. A la différence des modèles généralistes qui tentent d'exceller dans tous les domaines, Grok-4 se concentre exclusivement sur les tâches nécessitant une réflexion complexe et une logique avancée. xAI s'est concentré sur l'apprentissage par renforcement plutôt que dans l'augmentation brute de données du dataset. xAI aurait ainsi mobilisé "10 fois plus de calcul que n'importe quel modèle existant sur l'apprentissage par renforcement, une échelle sans précédent", en utilisant l'ensemble des 200 000 GPU du superordinateur Colossus.

Comme o3, Gemini 2.5 Pro ou Claude-4, Grok-4 décompose méthodiquement les problèmes complexes en plusieurs étapes et identifie les relations logiques (principe de la chain of thought). Grok-4 Heavy va encore plus loin en utilisant plusieurs instances du modèle qui abordent un problème sous différents angles, comparent leurs approches et convergent vers la meilleure réponse. Le modèle dispose d'un contexte de 256 000 tokens.

Un très bon modèle dans les benchmarks

C'était attendu : Grok-4 établit de nouveaux records sur plusieurs benchmarks de référence. Sur Humanities Last Exam (2 500 problèmes de niveau PhD), Grok-4 résout 26.9% des questions en mode standard et plus de 45% avec la version Heavy. Des résultats qui le placent au niveau post-doctoral "dans toutes les matières, sans exception", selon Elon Musk, qui souligne qu'un humain n'obtiendrait "peut-être que 5%" sur ce test. En mathématiques, il réalise un score parfait de 100% sur AIME25 contre 98,4% pour o3, et 96,7% sur HMMT25 face aux 82,5% de Claude 4 Opus.

Résultats des benchmarks de Grok-4. © Capture d'écran / JDN

Plus remarquable encore, Grok-4 devient le premier modèle public à franchir la barre des 10% sur ARC-AGI, atteignant 15,9% de précision. Greg Kamradt, président d'ARC Prize, confirme cette performance après validation indépendante sur un jeu de données semi-privé. "Grok-4 montre des niveaux non nuls d'intelligence fluide", souligne-t-il, précisant que le score précédent le plus élevé était d'environ 8% avec Claude Opus 4.

Enfin, l'Artificial Analysis Intelligence Index, qui agrège sept évaluations différentes, place Grok-4 en tête avec un score de 73 points. Un score qui donne une bonne idée de son classement général dans les benchmarks par rapport aux autres modèles concurrents.

Cependant, le modèle présente des limitations notables en dehors du raisonnement pur. Ses capacités multimodales restent rudimentaires. Elon Musk reconnaît que Grok-4 est "partiellement aveugle" et que "sa compréhension des images doit être bien meilleure". Plus décevant encore , le modèle présente des performances plus contrastées en programmation. Sur LiveCodeBench , qui évalue les capacités de codage sur des problèmes récents, Grok-4 atteint 79,4%, se positionnant au niveau de Gemini 2.5 Pro (79,3%) et légèrement derrière o3. xAI, a d'ailleurs annoncé qu'un modèle de codage spécialisé était en développement et serait "à la fois rapide et intelligent", avec une disponibilité prévue "dans quelques semaines".

Un pricing très exigeant

Pour les utilisateurs grand public, Grok-4 est accessible via l'abonnement SuperGrok à 30 dollars mensuels tandis que l'abonnement SuperGrok Heavy à 300 dollars par mois donne accès à Grok-4 Heavy avec ses capacités multi-agents. Une grille tarifaire qui fait de xAI l'un des fournisseurs d'IA les plus chers. Le modèle est également disponible via l'API de Grok, sans pour l'heure que l'on connaisse son prix officiel.

Avec Grok-4, xAI s'impose momentanément en tête des modèles de raisonnement, mais cette domination pourrait être de courte durée. L'entreprise prévoit un calendrier de déploiements ambitieux avec un modèle de codage spécialisé en août, un agent multimodal en septembre et un modèle de génération vidéo en octobre. Cependant, la concurrence ne reste pas inactive : de nouvelles versions de Claude ont été aperçues en test sur le web, Google prépare Gemini 3.0, et OpenAI devrait lancer GPT-5 dans les prochaines semaines.