IA-pocalypse : de l'éveil au grand sommeil ?

Les IA génératives arrivent au bout des données disponibles facilement. Deux solutions : s'entraîner sur des données générées par IA ou refaire travailler les humains.

L’Intelligence Artificielle ou GenAI pourrait bien rencontrer un obstacle de taille très rapidement : l’IA-pocalypse, le point où les modèles de langage (LLM) et l’IA générative atteindront leurs limites en raison de l’entraînement sur leurs propres données plutôt que sur des données humaines authentiques. Connu sous le nom de "Model Collapse", ce phénomène entraîne une dégradation rapide de la qualité des réponses, rappelant le processus observé dans le clonage successif.

Les modèles de LLM ont jusqu'à présent reposé sur des ensembles de données diversifiés accessibles via le web. Mais de plus en plus, les propriétaires de contenu en restreignent l’accès avec le droit à l’opt-out (exclusion des robots crawlers, restriction des licences et terms of service). Selon une étude de Data Provenance Initiative près de 5% de l’ensemble des données, 25% des données de meilleure qualité (et 45% dans certains datasets) ne sont désormais plus accessibles à l'entraînement !

 L’hiver de la generative AI arrive

Dans le film "L'éveil" (1990), le Dr. Sayer (interprété par Robin Williams) utilise un médicament expérimental pour réveiller Leonard (Robert De Niro) et d'autres patients léthargiques. Pour un temps, ces patients connaissent une renaissance, et retrouvent la pleine possession de leurs moyens, et de grands espoirs. Malheureusement l'effet du médicament s'estompe sans savoir pourquoi et ils retombent dans leur état premier. L’utopie est morte aussi vite qu’elle était née. Sans mesure rapide et collective, c’est ce qui pourrait arriver à l’IA Generative.

Conscients de ce risque, des acteurs majeurs du secteur cherchent continuellement de nouvelles sources de données humaines à ingérer et nouent des partenariats stratégiques avec des organes de presse et des créateurs de contenu. L'objectif : continuer à alimenter les IA avec de la matière première authentique, riche en nuances et en complexité.

En 2023 et 2024, OpenAI a conclu des accords importants avec plusieurs journaux et avec des sites pour développeurs informatiques tel que Reddit, investissant des centaines de millions de dollars pour garantir un approvisionnement continu. Ce qui fait dire au fondateur d’Anthropic que d'ici 2030, on pourrait dépenser jusqu’à 100 milliards de dollars pour entraîner un seul modèle !

Cela dit, si les humains produisent un volume impressionnant de données chaque jour, cette production ne suffit pas à satisfaire l’appétit insatiable des IA, confirmant un peu plus le scénario de l'IA-pocalypse.

L’Humanité au secours des IA

“Un jeu de données, un jeu de données, Mon Royaume pour un jeu de données” pourrait bientôt s’écrier les géants du secteur !

Pour se prévenir de cet effondrement, plusieurs pistes sont explorées par les chercheurs : stimuler massivement la production de contenu humain - via des incitations économiques ou culturelles, développer de nouvelles techniques d’entraînement qui ne dépendent pas uniquement de la quantité de données, mélanger de la donnée fraîche et synthétique, etc. Les idées ne manquent pas (encore) pour éviter de voir se fermer les portes du progrès que nous avons à peine commencé à entrevoir.

Le spectre de l’IA-pocalypse nous pousse aussi à réfléchir à notre dépendance croissante à l’IA et à ses superstitions, voire ses hyperstitions comme le dit Alain Damasio dans Vallée du Silicium. L’intelligence humaine n’est pas encore reproduite, malgré l’ensemble des données ingérées. C’est bon signe. Cela nous amène aussi à commencer à repenser un monde et une économie ou l’IA n'accomplit pas ses promesses de grand remplacement du travail. Comme en 2022, vous vous souvenez ?