IA générative : quelle technologie après ChatGPT ?
Au sein des laboratoires américains, les chercheurs en intelligence artificielle s'activent pour dénicher les technologies qui pourraient surpasser les performances de l'assistant d'OpenAI.
D'ici quelques mois, ChatGPT pourrait bien être de l'histoire ancienne. Aux Etats-Unis, les plus grands laboratoires en intelligence artificielle s'activent pour mettre le doigt sur la découverte qui pourrait rendre l'assistant d'OpenAI et son modèle de langue (LLM) GPT-4 obsolète. Parmi les structures qui font la course en tête figurent le MIT, le groupe Meta ou encore le franco-américain Hugging Face.
Côté MIT, c'est le Computer Science and Artificial Intelligence Laboratory (CSAIL) qui est à la manœuvre. Mi-juin, le laboratoire levait le voile sur une IA baptisée SimPLE pour Simple Pseudo-Label Editing. L'enjeu ? Démontrer que des modèles de petite taille peuvent largement dépasser les performances des grands modèles. "Pour cela, SimPLE repose sur un processus d'auto-formation. L'objectif est d'apprendre de ses propres prédictions, et ainsi d'éviter la phase d'annotation des données d'apprentissage susceptible d'engendrer des biais dans les réponses", explique Rachel Gordon, porte-parole du CSAIL.
Résultat, la technologie du MIT surpasse les performances de LaMDA de Google et des modèles GPT d'OpenAI sur toute une série de tâches de compréhension du langage : depuis l'analyse de sentiment jusqu'aux processus de questions-réponses en passant par la classification d'actualités.
Autre axe de recherche, le CSAIL planche sur la combinaison de la génération et de la reconnaissance d'image au sein d'une même architecture pour gagner en synergie. Un chantier qui a abouti à un premier jet avec le système Mage (pour Masked Generative Encoder). Dans ces dernières itérations, Mage surperforme les modèles de génération d'images précédents.
Le logiciel libre change la donne
Du côté de Meta, on n'hésite pas à donner un grand coup de pied dans la fourmilière en misant sur l'open source. Avec la version 2.0 de son modèle de langue LLaMA, le groupe de Mark Zuckerberg a livré pour la première fois mi-juillet une solution sous licence libre (GNU GPL) utilisable au sein d'un produit commercial (lire l'article Llama 2 en open source : pourquoi ça change la donne ?).
"La vision de Yann LeCun est de créer des machines dotées d'un sens commun"
Mais l'initiative de Meta est loin d'être isolée. Déjà, mi-2022, Hugging Face publiait les sources de Bloom. Un modèle qui a été entrainé en France sur le supercalculateur Jean Zay du ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation. De mai 2021 à mai 2022, sa conception a fédéré plus de 1 000 chercheurs issus de 60 pays.
C'est là toute la force de l'open source que de pousser vers l'open innovation. Le logiciel libre distille la technologie jusque dans les moindres PME et start-up. Il permet de récupérer un modèle puis de l'entrainer sur un data set maison pour le tester voire le mettre en production sur un cas d'usage spécifique. Sur ce plan, l'open source a déjà permis de montrer qu'il était possible de personnaliser de petits LLM avec de petits data set et, partant de là, d'obtenir immédiatement des résultats opérationnels.
Des IA ayant le sens commun
Dans le sillage de LLaMA, Meta a levé le voile mi-juin sur I-Jepa (pour Image Joint Embedding Predictive Architecture). Un tout nouveau modèle de vision par ordinateur qui apprend en comparant les représentations au sein des images plutôt qu'en se basant sur les pixels. "Ici, la vision de Yann LeCun (le chief AI scientist du groupe, ndlr) est de créer des machines dotées d'un sens commun, capables d'apprendre des modèles internes le fonctionnement du monde, pour ensuite apprendre beaucoup plus rapidement, planifier l'accomplissement de tâches complexes et s'adapter facilement à des situations inconnues à la manière des humains", indique un porte-parole de Meta.
La reconnaissance d'image étant une des composantes clés des IA de génération d'images, la porte ouverte par Yann LeCun laisse évidemment présager des progrès important sur ce terrain.