Comparatif des IA géantes : Microsoft et Nvidia écrasent la concurrence
Bert, Bloom, GPT-3, MT-NLG... Google, Meta ou OpenAI sont dans la course aux transformers les plus massifs et les plus performants dans le traitement automatique de la langue.
Depuis 2017, on assiste à une course aux intelligences artificielles géantes dans le domaine du NLP (pour natural language processing). Un terrain sur lequel Google, Meta et Microsoft s'affrontent aux côtés de sociétés spécialisées au premier rang desquelles l'américain OpenAI et le français Hugging Face. Le point commun de ces IA ? Toutes s'adossent aux transformers. Des modèles de deep learning qui, à l'instar des réseaux de neurones récurrents (RNN), sont conçus pour ingérer des données séquentielles. Un processus qui les rend particulièrement bien adaptés au traitement du langage naturel. Contrairement aux RNN en revanche, les transformers ne traitent par les données sous forme de flux continu en respectant l'ordre des mots des phrases. Résultat : ces large language models (LLMs) sont capables de découper les traitements et paralléliser les calculs de la phase d'apprentissage. Ce qui les rend au final beaucoup plus rapides à entraîner.
Pour l'heure, Microsoft et Nvidia sont en tête de la compétition avec leur Megatron-Turing Natural Language Generation (MT-NLG). Un modèle de NLP comptant pas moins de 530 milliards de paramètres (voir le tableau ci-dessous).
Modèle/date | Licence | Fournisseur | Nombre de paramètres | Mode de machine learning | Cas d'usage |
---|---|---|---|---|---|
BERT / 2018 | open source (licence Apache) | Google AI | - Modèle de base : 100 millions, - Modèle large : 335 millions. |
Entraînement bidirectionnel ingérant le texte à droite et à gauche d'un mot pour déterminer son contexte. | Chatbots, analyse de sentiments, recherche d'informations, auto-autocomplétion, résumé. |
Bloom / 2022 | Open source (BigScience RAIL License) | Projet BigScience / Hugging Face | 176 milliards | Modèle de langage autorégressif conçu pour générer des textes dans 46 langues et 13 langages applicatifs. | Génération de texte et de code applicatif. |
CamemBERT / 2019 | Open source (licence MIT) | Facebook AI Research et Inria | - Modèle de base : 100 millions, - Modèle large : 335 millions. |
Modèle linguistique français basé sur BERT et RoBERTa et pré-entraîné sur le corpus multilingue Oscar. | Tâches de remplissage / masquage, soit masquer certains mots d'une phrase en vue de les prédire. |
FlauBERT / 2019 | Open source (Creative Commons Attribution-NonCommercial 4.0) | CNRS | - Modèle de base : 137 millions, - Modèle large : 373 millions |
BERT français formé à partir d'un corpus très large et hétérogène. | Classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation. |
GPT-3 / 2018 | Propriétaire (modèle distribué par Microsoft) | OpenAI | 175 milliards | Modèle génératif auto-supervisé, pré-entraîné sur un corpus anglais (il prédit le mot suivant pour générer des étiquettes). | Traduction, questions-réponses, composition de poésie, résolution de problèmes, génération de code, exécution de tâches avec raisonnement. |
GPT-J / 2021 | Open source (Apache 2.0) | Eleuther AI | 6 milliards | Alternative open source à GPT-3. | Traduction, génération et complétion de code (avec de meilleures perf que GPT-3), chat, rédaction d'articles... |
OPT / 2022 | Open source (OPT-175B License Agreement) | Meta | 175 milliards | Modèle de NLP génératif optimisé pour être entraîné sur une infrastructure 16 V100 GPUs de Nvidia. | Génération de texte, résolution de problèmes mathématiques, questions-réponses... |
T5 / 2019 | Open source (license Apache) | 11 milliards | Modèle d'apprentissage par transfert, d'abord pré-entraîné sur une tâche globale avant d'être affiné sur une tâche plus spécifique. | Traduction automatique, synthèse de documents, questions-réponses, classification, analyse de sentiments. | |
T-NLG et MT-NLG / 2020 | Propriétaire | Microsoft et Nvidia | - T-NLG : 17 milliards, - MT-NLG : 530 milliards. |
Modèle de langage génératif. En lien avec Microsoft, Nvidia a présenté son successeur : le Megatron-Turing NLG. | Questions-réponses, résumé abstrait de plusieurs types de documents : e-mail, feuille de calcul... |
Sources : Devoteam
"Avec leur dispositif d'encodeur-décodeur capable de recouvrir tout un texte, les transformers prennent mieux en compte la distance entre les termes. Leur architecture de self-attention (qui permet de traduire l'interdépendance des mots dans la représentation des séquences) évite par ailleurs au gradient de la fonction de perte d'approcher du zéro ce qui rendrait le modèle difficile à entraîner", précise Houssam AlRachid, lead data scientist chez Devoteam.
530 milliards de paramètres
Avec ses 530 milliards de paramètres, le MT-NLG de Microsoft et Nvidia est le plus gros modèle de NLP jamais créé à ce jour. "Plus le nombre de paramètres est élevé, plus un transformeur sera polyvalent et capable de gérer des tâches variées de manière performante, de la classification de texte à la traduction en passant par les jeux de questions-réponses. Grâce à un encodage plus fin des relations entre les phrases et leurs sous-parties respectives, il sera aussi mieux à même de générer des textes de plus en plus longs tout en restant cohérent", explique Julien Chaumond, CTO d'Hugging Face. L'enjeu sera par exemple de fournir une réponse détaillée à des requêtes impliquant de saisir pleinement un contexte. Exemple : "Qui étaient le président et le premier ministre français lors de la Coupe du monde de football 1998, et quelles étaient leur politique cette année-là ?" (Réponse : c'était Jacques Chirac et Lionel Jospin qui a notamment mené en 1998 une réforme de la justice).
Le principal intérêt des modèles affichant des milliards de paramètres ? Etre capable de mettre en œuvre immédiatement des traitements spécifiques sans réentrainement particulier (via la technique zero-shot learning), par exemple saisir un vocabulaire métier spécialisé. Problème : exécuter des IA de cette taille implique d'être équipé d'un supercalculateur. Face à ce défi, plusieurs acteurs en lice optimisent leur technologie pour réduire les ressources machine nécessaires. C'est le cas de Meta dont le modèle OPT de 175 milliard de paramètres est taillé pour tourner sur une architecture de 16 Nvidia V100 GPUs. Mais aussi de Bloom qui, avec ses 176 milliards de paramètres, implique a minima une infrastructure de traitement de 8 GPU de 80 Go chacun. "Ce qui représente tout de même une machine de 100 à 200 000 dollars ou une instance cloud de 10 à 15 dollars par heure", rappelle Julien Chaumond. "Ces technologies sont donc plutôt réservées à la recherche."
BigScience, principale alternative
Reste que les grands modèles "d'entrée de gamme", à l'image de BERT et ses 335 millions de paramètres, suffiront largement pour certains cas d'usage. "BERT est parfaitement adapté pour les problématiques de classification et d'analyse de sentiments", illustre Julien Chaumond. Leur apprentissage et leur exécution seront nettement moins gourmands en capacités de calcul. Pour exploiter BERT, AWS recommande son instance G4 d'entrée de gamme. Comptant 4 vCPU et 16 Go de mémoire, elle est tarifée 0,526 dollar par heure.
"Certains grands modèles au premier rang desquels GPT-3 n'ont pas besoin de beaucoup de développement pour être mis en application"
On pourra aussi couper la poire en deux. Avec 1,5 milliard de paramètres, GPT-2 affiche une taille relativement limitée tout en couvrant de multiples cas d'usage : traduction, questions-réponses, résumé et génération de texte. "Pour déployer chacun d'eux, GPT-2 devra cependant être réentrainé n'étant pas suffisamment puissant pour le zero-shot learning", pondère le CTO d'Hugging Face.
Autre frein à l'adoption des LLMs : les compétences nécessaires pour les prendre en main. "Néanmoins, certains grands modèles comme GPT-3 impliquent assez peu de développement pour être mis en application, ce qui les met à la portée d'un data scientist junior", reconnait Houssam AlRachid chez Devoteam. Historiquement, la langue figure également parmi les principaux obstacles à la démocratisation des grands modèles. Depuis quelques années, cette barrière tend à se lever avec le développement de LLMs adaptés au français. C'est le cas des déclinaisons de Bert que sont CamemBERT et FlauBERT. "Leurs performances sont très proches, et en ligne avec celles de Bert", estime Houssam AlRachid. Publié en 2022, Bloom permet quant à lui de produire des contenus cohérent en 46 langues et 13 langages de programmation. "Il peut aussi effectuer des tâches de traitement de texte pour lesquelles il n'a pas été explicitement entraîné en capitalisant sur le zero-shot learning", ajoute le data scientist de Devoteam.
Reste une question : celle de la licence. Face aux LLMs propriétaires, il existe de plus en plus d'alternatives open source. C'est le cas de GPT-J et CamemBERT, respectivement disponibles sous licence Apache 2.0 et licence MIT. Mais également et surtout de Bloom qui est disponible sous BigScience RAIL License. Ce modèle multilingue à l'état de l'art est porté par le projet BigScience dont le français Hugging Face est à l'initiative.