IA générative : sortir des fantasmes pour créer de la valeur

95% des projets en IA générative échouent : pour créer de la valeur, il faut dépasser les fantasmes, limiter l'usage de l'IA au nécessaire, tester rigoureusement et viser l'industrialisation.

La sortie de l'étude « State of AI in business » du MIT a eu le mérite de secouer les esprits dans le bon sens : 95% des projets en IA générative ne créent aucune valeur pour les entreprises qui les portent. Si cette observation a surpris la plupart des acteurs de ce monde, elle a été accueillie par les « vieux » de ce domaine comme une évidence. Les « Proof of Concept » (prototypes) pullulent aujourd'hui, mais les industrialisations réussies, permettant d'aller en production, restent très rares.

Au-delà des analyses proposées par les auteurs du MIT, le domaine du Deep Learning souffre depuis sa renaissance en 2012 de faiblesses fondamentales qui permettent de mieux comprendre la situation. Parmi ces faiblesses, un péché originel : celui de créer des outils pour lesquels nous n'avons pas de compréhension mathématique fondamentale. Cet aveuglement plane au-dessus du domaine académique depuis sa création, et sans cette boussole théorique, les chercheurs ont évolué en pratiquant l'empirisme à outrance. On pourrait citer ces publications complexes en séries temporelles de 2021 à 2022 [1] totalement invalidées par une approche presque simpliste, comme on pourrait évoquer de nombreuses croyances portant sur les Large Language Models (entre autres : l'émergence de nouvelles capacités [2], ou l'auto-correction des modèles [3]) ensuite totalement invalidées.

Ce défaut de compréhension pourrait être vu comme un non-problème. De nombreuses applications techniques se basent sur une compréhension partielle de phénomènes physiques. Mais à cet aveuglement s'est ajouté un autre problème : le fait que ces réseaux de neurones obtiennent des résultats d'autant plus intéressants qu'ils sont gros. La boulimie des modèles a aggravé notre déficit de compréhension, jusqu'à produire les Large Language Models : des outils génériques, certes fascinants, mais que nous ne savons pas contrôler en termes de sécurité, de qualité ou d'interprétabilité.

Les Large Language Models (LLMs) cristallisent aujourd'hui le débat, et sont un excellent exemple de la dichotomie de l'IA. D'un côté, ces outils sont fascinants et révolutionnaires. De l'autre, évaluer leur qualité de manière à les transformer en outils professionnels et maîtrisés peuvent conduire les meilleurs experts au désespoir. Les LLMs sont un piège double. D'une part, ce sont des outils stochastiques, aléatoires, entraînés globalement sur une donnée supposée représenter un problème (et après dix ans dans ce domaine, je peux reconnaître que représenter un problème par de la donnée peut parfois donner la nostalgie du cycle en V. Brièvement, du moins). Mais surtout, ces modèles prennent en entrée et en sortie du langage, ouvrant la porte à un anthropomorphisme facile qui gâchera toute chance de correctement envisager et donc manipuler ces outils. Certains chercheurs ont même tenté d'étudier la "Human Generalization Function"[4], où pourquoi quelqu'un décidera que tel ou tel problème devrait pouvoir être résolu par un LLM.

L'enjeu aujourd'hui n'est pas d'abandonner l'IA globalement, mais de se débarrasser des fantasmes pour retrouver un minimum de bon sens. L'IA est un catalogue d'outils. Tout outil suppose un usage correct et des conditions d'utilisation. Un élément méthodologique qui permet, typiquement, d'espérer transformer un prototype IA en produit est de minimiser l'IA en ne l'utilisant que là où elle est absolument nécessaire, afin de minimiser les risques et maximiser l'explicabilité du produit. Par ailleurs, tester ces outils est certes moins trivial mais n'est pas non plus impossible et est ici une absolue nécessité. Enfin, poser la question de l'utilisateur et de son rapport au produit est d'autant plus vital que les fantasmes sont la norme à propos de ces modèles.

L'IA ne va pas disparaître demain, mais des coups de semonce comme le rapport du MIT nous imposent recul et sobriété si nous voulons réussir.

{Références}

[1] Are Transformers Effective for Time Series Forecasting?, Zeng et al

[2] Are Emergent Abilities of Large Language Models a Mirage? Schaeffer et al

[3] Large Language Models Cannot Self-Correct Reasoning Yet, Huang et al

[4] Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function, Vafa et al