Votre enfant a un QI de 100. Claude Opus 4.6 en a un de 155. Et il progresse encore

Endkoo

Claude Opus 4.6 : QI estimé à 155. L'humain moyen : 100. Et le modèle progresse de 20 points tous les six mois. Ce n'est plus de la science-fiction.

La comparaison que personne ne veut faire — et qui va pourtant définir les dix prochaines années.

Je vais vous soumettre deux chiffres. Vous allez les trouver provocateurs. Puis vous allez réaliser qu'ils ne sont pas provocateurs du tout — qu'ils sont juste vrais, et que vous préfériez ne pas y penser.

Premier chiffre. Le QI moyen d'un être humain adulte est de 100. C'est par définition : l'échelle de Wechsler est construite autour de cette moyenne, avec un écart-type de 15. Un QI de 130, c'est le top 2 %. Un QI de 145, c'est 1 personne sur 1 000. Un QI de 160, c'est une poignée d'individus sur Terre.

Second chiffre. En mars 2026, Claude Opus 4.6 — le modèle d'Anthropic — se situe à environ 155 sur cette même échelle, selon les estimations psychométriques comparées publiées sur Zenodo. Soit le 99,98ème percentile de la population humaine.

Ce n'est pas un exercice de style. Ce n'est pas de la science-fiction. C'est la trajectoire documentée d'un système qui progresse de 20 points de QI équivalent tous les six mois.

Faites le calcul. Puis posez-vous la vraie question.

Ce que le QI mesure — et ce qu'on refuse de regarder en face

Le QI n'est pas une mesure parfaite de l'intelligence humaine. Tout le monde s'accorde là-dessus — et c'est souvent le premier argument qu'on sort pour éviter d'avoir cette conversation.

Donc réglons ça une fois pour toutes.

Oui, le QI ne mesure pas l'empathie. Pas la créativité pure. Pas le leadership. Pas ce que les psychologues appellent l'intelligence émotionnelle. L'échelle de Wechsler mesure quatre choses précises : la compréhension verbale, le raisonnement perceptif, la mémoire de travail, et la vitesse de traitement.

Très bien. Comparons sur ces quatre dimensions.

Compréhension verbale. L'humain moyen maîtrise une langue, parfois deux. Claude Opus 4.6 opère en une centaine de langues, sans perte de qualité. Avantage IA, sans appel.

Mémoire de travail. L'humain moyen retient 7 éléments simultanément — c'est la limite biologique documentée depuis Miller (1956). Claude Opus 4.6 opère sur une fenêtre contextuelle d'un million de tokens. C'est l'équivalent de traiter 750 000 mots en une seule passe sans rien oublier. Le rapport est de 1 à 100 000.

Vitesse de traitement. Le cerveau humain traite l'information consciente à environ 20-30 bits par seconde. Claude Opus 4.6 génère environ 65 tokens par seconde — et ce, en continu, sans fatigue, sans café, sans lundi matin.

Raisonnement perceptif. C'est là que ça devient intéressant. Et dérangeant.

ARC-AGI-2 : le test que vous n'êtes pas censé voir

Le benchmark ARC-AGI-2, conçu par François Chollet — l'un des chercheurs les plus rigoureux en matière d'évaluation de l'IA — est spécifiquement construit pour être résistant à la mémorisation. Les puzzles visuo-logiques qu'il contient n'ont jamais été vus par les modèles pendant leur entraînement. C'est du raisonnement pur. De l'abstraction nue.

Résultats en 2026 :

  • Humain moyen : 60 %
  • Claude Opus 4.6 : 68,8 %
  • Humain expert (panel de contrôle) : 100 %

C'est la première fois dans l'histoire qu'un système d'intelligence artificielle généraliste dépasse statistiquement l'humain moyen sur une tâche de raisonnement abstrait pur, conçue précisément pour éliminer l'avantage de la mémorisation.

Pour être précis : l'IA ne surpasse pas encore l'humain expert. L'humain expert reste à 100 %. Il reste donc une zone d'excellence humaine — mais elle se rétrécit. Et la direction du mouvement est claire : une seule génération de modèle sépare Claude Opus 4.5 (37,6 % sur ce même test) de Claude Opus 4.6 (68,8 %).

En douze mois, le score a presque doublé.

Médecine, droit, finance : ce n'est plus de la simulation

Parlons métiers. Parce que c'est là que la conversation devient inconfortable pour tout le monde.

Médecine. Sur l'USMLE Step 2 CK — l'examen qui certifie les médecins américains —, Claude Opus 4.6 atteint 89,3 %. Ce score correspond au-delà du 95ème percentile des candidats humains. Dans des études cliniques réelles, le modèle surpasse la précision diagnostique des médecins généralistes et égale celle des spécialistes dans 76,1 % des cas complexes.

Droit. Sur le BigLaw Bench, qui teste l'analyse contractuelle et la recherche de jurisprudence, score : 90,2 %. Le plus élevé jamais enregistré pour un modèle de sa catégorie. Il identifie des clauses contradictoires dans des documents de plusieurs centaines de pages en une seule passe.

Finance. Sur GDPval-AA, benchmark de productivité en finance et audit : 1606 Elo — top 1 % des performances.

Je répète : ce ne sont pas des simulations. Ce ne sont pas des démos préparées pour impressionner lors d'une keynote. Ce sont des benchmarks reproduits, vérifiés, publiés.

La question n'est donc plus "est-ce que l'IA peut faire ce que fait un expert humain ?" La réponse est oui, sur une partie croissante du spectre.

La vraie question est : "dans quels domaines l'humain reste-t-il irremplaçable — et pour combien de temps ?"

Humanity's Last Exam : la frontière qu'on ne voit pas

En 2026, un consortium de chercheurs a publié "Humanity's Last Exam" (HLE) — 2 500 questions si ardues qu'elles nécessitent des années d'études ultra-spécialisées. Dialectes anciens. Physique des particules. Mathématiques avancées.

Résultat de l'humain moyen sur ce test : 0 %. Pas parce qu'il est stupide. Parce que personne ne maîtrise l'ensemble de ces domaines simultanément. C'est par conception un test auquel aucun individu ne peut répondre.

Claude Opus 4.6 : 40 à 53,1 % selon le mode d'utilisation (avec ou sans outils de recherche).

Gemini 3.1 Pro : 45,9 %.

L'IA ne sait pas tout. Mais elle sait, en parallèle, ce que des centaines de spécialistes humains savent chacun dans leur domaine. Et elle le mobilise en temps réel, sur une seule requête.

Les angles morts qu'on doit nommer

Ce serait intellectuellement malhonnête de ne pas les signaler.

La contamination des données. Une partie des scores sur les tests "classiques" (barreaux, examens médicaux) peut s'expliquer par la mémorisation : si les questions de ces tests figurent dans les données d'entraînement, le modèle ne "raisonne" pas — il "se souvient". C'est pour ça qu'ARC-AGI-2 et HLE sont précieux : ils sont conçus pour éliminer cet avantage.

La frontière dentelée. Un modèle peut résoudre un problème de thermodynamique avancée et échouer sur un test de logique enfantine mal formulé. L'intelligence IA n'est pas linéaire. Elle a des zones d'excellence et des zones de fragilité que l'intelligence humaine n'a pas de la même façon.

L'auto-correction. Les modèles détectent leurs erreurs dans 21 à 73 % des cas — mais ne parviennent à les corriger réellement que dans 1,1 à 5,2 % des situations. Ce manque de métacognition robuste est le principal frein à l'attribution d'une intelligence "générale" au sens humain du terme.

Ce que le QI ne mesure pas. L'intuition clinique. La compréhension des non-dits. Le leadership en situation de crise. La création ex nihilo à partir d'une expérience vécue. Ces dimensions restent — pour l'instant — des avantages compétitifs humains réels.

Ce que ça change pour vous, maintenant

Voilà la partie que personne dans les comités de direction ne veut entendre.

Pendant des décennies, le capital humain s'est défini par la rareté des compétences cognitives avancées. Un expert juridique coûtait cher parce qu'il était rare. Un diagnosticien de pointe valait de l'or parce qu'on en formait peu. Un analyste financier senior justifiait son salaire parce que son traitement d'information était supérieur à la moyenne.

Ces équations changent.

Pas demain. Maintenant.

La valeur ne sera plus dans la connaissance stockée, ni dans la vitesse de traitement, ni dans la capacité à mobiliser de l'information dans un domaine. Ces capacités seront commoditisées dans les 36 prochains mois — elles le sont déjà en partie.

La valeur sera dans ce que le QI ne mesure pas : le jugement contextuel, la légitimité relationnelle, la prise de risque engagée, la responsabilité assumée face à un client ou un patient.

Ce n'est pas un discours rassurant sur "le futur du travail humain". C'est un diagnostic froid.

La seule question qui compte

En 2018, une étude compilant les prédictions de 352 chercheurs en machine learning estimait que l'IA dépasserait les humains dans toutes les tâches avec 50 % de probabilité dans 45 ans.

Nous sommes en 2026. Les benchmarks de 2018 sont obsolètes. Et les 45 ans se sont transformés en moins de dix ans dans certains domaines.

La question n'est donc pas : "L'IA va-t-elle dépasser l'humain ?" Elle l'a déjà fait, sur des dimensions précises et mesurables.

La question est : "Qu'est-ce que vous faites, concrètement, de cette information ?"

Parce que la réponse la plus courante — "attendons de voir" — n'est pas une stratégie. C'est une façon de décider sans décider.

Et dans un environnement où le score ARC-AGI d'un système double en douze mois, "attendre de voir" a un coût d'opportunité que vous pouvez chiffrer.

Moi, je l'ai chiffré. Pour mes clients. Les conclusions ne sont pas réconfortantes. Mais elles sont actionnables.

C'est la différence entre l'information et l'intelligence. Et pour l'instant, cette différence-là — elle reste humaine.

Sources principales :

  • Anthropic, Claude Opus 4.6 System Card (2026)
  • ARC Prize Foundation, ARC-AGI-2 Benchmark Results (2026)
  • Stanford University HAI, AI Index Report 2025
  • Jaš & Gams, IQ Progression of Large Language Models, Zenodo (2026)
  • Humanity's Last Exam Benchmark Leaderboard, Artificial Analysis (2026)
  • Grace et al., "When Will AI Exceed Human Performance?", arXiv:1705.08807 (2018)