Pourquoi l'IA réussit les examens… mais échoue sur les problèmes simples

Ecole Européenne du Numérique

L'IA réussit les examens de doctorat mais échoue à compter des mots. Ilya Sutskever (ex-OpenAI) brise le silence et explique pourquoi augmenter la taille des modèles ne résoudra pas ce paradoxe.

Ilya Sutskever vient de briser le silence. Cofondateur d'OpenAI et ancien directeur scientifique de l'entreprise, cet informaticien discret a défrayé la chronique fin 2023 en participant à l'éviction éclair de Sam Altman, son PDG, avant de quitter la société en mai 2024 pour lancer sa propre startup. Connu pour éviter les projecteurs et accorder très peu d'interviews, il s'est récemment confié dans le podcast de Dwarkesh Patel, livrant une analyse aussi surprenante que dérangeante sur l'état actuel de l'intelligence artificielle.

Son constat ? Imaginez un étudiant capable de réussir l'examen d'entrée à Polytechnique, mais incapable de compter le nombre de mots dans une phrase. C'est exactement le paradoxe que vivent aujourd'hui les intelligences artificielles les plus avancées. Sutskever résume cette énigme par une question troublante : 

Comment expliquer que ces systèmes obtiennent d'excellents résultats aux tests, alors que leur impact économique réel reste si limité ?

Des performances spectaculaires sur les exercices difficiles

Les modèles d'intelligence artificielle récents accumulent les exploits impressionnants. Prenons l'exemple du modèle o1 d'OpenAI : il se classe parmi les 11 % meilleurs programmeurs lors de compétitions internationales de code, et surpasse même des doctorants sur des questions pointues de physique, chimie et biologie.

Ces systèmes fonctionnent comme d'immenses bibliothèques vivantes, capables de puiser dans des quantités astronomiques d'informations absorbées pendant leur apprentissage. Ils excellent particulièrement sur les examens universitaires standardisés et les tests de qualification professionnelle, où la restitution de connaissances et la résolution de problèmes complexes sont essentielles.

Cette réussite cache toutefois un problème majeur : la contamination des données. En clair, certains modèles ont déjà « vu » les questions d'examen pendant leur entraînement. C'est comme si un étudiant passait un test avec toutes les réponses dans sa poche. Dans ces conditions, l'IA ne fait que restituer des réponses mémorisées plutôt que de véritablement raisonner.

Pour garantir une évaluation honnête, les chercheurs développent désormais des tests garantis « jamais vus » par les modèles, afin de mesurer leur capacité réelle de compréhension.

L'échec surprenant face aux problèmes élémentaires

C'est là que le bât blesse. Alors qu'elle peut résoudre des équations complexes, l'IA trébuche régulièrement sur des tâches qu'un enfant de dix ans maîtrise sans difficulté.

Des chercheurs ont créé un test révélateur appelé Unpuzzles. Le principe ? Prendre des énigmes logiques célèbres et les simplifier au point de les rendre triviales. Résultat : les modèles qui résolvent brillamment la version difficile échouent sur la version facile.

Pourquoi ? Parce qu'ils sur-réfléchissent. Face à un problème simple, l'IA ressort automatiquement les techniques sophistiquées apprises pour les problèmes complexes, là où un simple bon sens suffirait. C'est comme utiliser un marteau-piqueur pour planter un clou.

Vous l’avez sûrement constaté vous-même, l'intelligence artificielle peine aussi dès qu'une tâche demande de la minutie et de l'attention soutenue. Ces limites sont d'autant plus importantes à comprendre pour quiconque souhaite maîtriser l'IA générative dans un contexte professionnel, où la précision et la fiabilité sont essentielles :

  • Compter des mots : dès que le texte dépasse quelques lignes, les performances s'effondrent. Certains modèles tombent à 0 % de réussite lorsqu'il s'agit de compter 6 mots précis dans un paragraphe de 150 mots. Les erreurs s'accumulent au fil du décompte.
  • Planifier un voyage : face à des contraintes simples (budget, nombre de villes, moyens de transport), l'IA invente parfois des chiffres. Par exemple, lors d’un test, le modèle Claude 3.7 a récemment affirmé qu'un voyage coûtait 93$ au lieu de 103$, juste pour faire coller le résultat au budget demandé.

L'IA se laisse également dérouter par des détails sans importance. Ajoutez une phrase anodine dans un problème de mathématiques (par exemple, « Carlo a 35 ans et aime la pizza ») et les performances chutent dramatiquement. Pire encore, certains modèles utilisent ces informations inutiles pour « justifier » leur raisonnement, allant jusqu'à interpréter l'âge d'un personnage comme un indice mathématique.

Les relations familiales simples posent également problème. Demandez à l'IA combien de sœurs a le frère d'Alice quand vous savez qu'Alice a deux sœurs, et elle peut se perdre dans des raisonnements alambiqués.
 

Comprendre le décalage : l'humain contre la machine

Ilya Sutskever illustre cette différence par une analogie parlante : « L'IA ressemble à un étudiant qui aurait passé 10 000 heures à s'entraîner uniquement pour des compétitions de programmation. Il a mémorisé toutes les techniques, est devenu ultra-spécialisé, mais ne sait pas s'adapter en dehors de ce domaine précis. L'humain, lui, possède cette capacité mystérieuse à généraliser avec beaucoup moins de données. »

Le système de notation de l'IA amplifie cette illusion de performance. Les tests actuels se concentrent souvent sur des tâches isolées et des questions à choix multiples, où l'IA peut briller en reconnaissant des schémas superficiels plutôt qu'en comprenant vraiment.

De plus, les modèles affichent une confiance démesurée dans leurs réponses fausses, accompagnées de justifications qui semblent logiques mais sont complètement erronées. Ces hallucinations rendent leurs erreurs d'autant plus trompeuses.

Pour évaluer la véritable intelligence, les chercheurs développent de nouveaux critères : taux de réussite des objectifs, capacité à travailler de manière autonome, et surtout, résilience face aux erreurs dans les tâches qui demandent plusieurs étapes.

De la course à la taille à l'ère de la recherche fondamentale

Le fossé entre les exploits académiques de l'IA et sa fragilité face aux problèmes basiques nous enseigne une leçon cruciale : augmenter la taille des modèles et la quantité de données ne suffit pas à créer une intelligence véritablement flexible et fiable.

Ilya Sutskever prédit ainsi la fin de l'ère de la « course au gigantisme » et l'entrée dans l'« ère de la recherche ». L'enjeu n'est plus de construire des modèles toujours plus gros, mais de découvrir le principe d'apprentissage qui permettra une généralisation naturelle, cette capacité que nous, humains, possédons instinctivement.

Pour vraiment évaluer la prochaine génération d'intelligence artificielle, il faut changer de perspective : ne plus se demander quel est le problème le plus difficile qu'elle peut résoudre, mais plutôt quel est le problème le plus simple avec lequel elle galère.

L'IA d'aujourd'hui ressemble à un élève prodige mais rigide : capable de réciter des théorèmes complexes après avoir avalé des bibliothèques entières, mais complètement déstabilisé par une simple question de bon sens dès que le contexte change légèrement. Le chemin vers une véritable intelligence générale passe par la maîtrise de cette sagesse simple et adaptable – celle qui nous semble si naturelle, mais qui reste le Graal de l'intelligence artificielle.