Large language models : revue de détail des forces en présence
Des pure players aux fournisseurs de cloud en passant par les entreprises utilisatrices, le paysage des éditeurs de grands modèles de langage se structure.
Depuis le lancement de ChatGPT par OpenAI fin 2022, le marché de l'IA générative a explosé. En quelques mois, près d'une quinzaine de start-up positionnées sur ce créneau ont atteint le statut de licorne. Face à ce raz-de-marée, les géants du cloud avancent en rang serré. Tous proposent déjà des offres. Derrière l'IA générative se cachent de gigantesques modèles de machine learning : les large language models (LLMs). C'est ce qui fait la force de ces produits. Le point sur ce nouveau marché. Un segment qui se découpe en quatre grandes catégories d'acteurs.
1. Les Gafam
Historiquement, les Gafam ont été les premiers à s'engager dans le développement des LLMs avec, d'abord, des projets de R&D sans vocation produit. Dans la foulée de la sortie de ChatGPT, ils changent rapidement de braquet. Le lancement de produits devient prioritaire. Microsoft est le premier à réagir. Figurant parmi les premiers investisseurs d'OpenAI, le géant de Redmond annonce, dès janvier 2023, verser pas moins de 10 milliard de dollars au capital de la start-up. En parallèle, il amorce l'intégration de ChatGPT à Bing, puis annonce l'implémentation de ChatGPT à sa propre offre de cloud via Azure OpenAI Service. Une offre qui intègre aussi Dall-E et Codex, les LLMs d'OpenAI respectivement centrés sur la génération d'images et de code applicatif.
"Microsoft peut garantir la confidentialité des données dans le cadre des projets du client"
"Le ChatGPT historique d'OpenAI tourne, lui aussi, sur le cloud de Microsoft. Au-delà des aspects financiers et partenariaux, les deux sociétés sont indissociables sur le plan technique", estime Didier Gaultier, head of data science & ethics AI chez Business & Decision (groupe Orange Business). La principale différence entre le ChatGPT d'OpenAI et celui implémenté par Azure ? "Microsoft peut garantir la confidentialité des données dans le cadre des projets du client. Ce n'est pas le cas chez OpenAI qui ne chiffre pas les données et les laisse accessibles aux équipes destinées à qualifier les réponses via l'apprentissage par renforcement."
Derrière OpenAI et Microsoft, Amazon Web Services (AWS) et Google tentent de rattraper leur retard. Présenté en preview limitée mi-avril, Amazon Bedrock donne accès via une API à des LLMs pré-entraînés ou FMs (pour foundation models) édités par trois pure players : AI21 Labs, Anthropic et Stability AI. Ces start-up ont pour point commun de proposer des alternatives à ChatGPT et Dall-E. Jurrasic-2 d'AI21 Labs génère du texte dans de multiples langues, dont le français. Claude d'Anthropic peut, lui, alimenter un agent conversationnel, répondre à des requêtes ou résumer des documents. A l'instar d'un Midjourney, Stable Diffusion de Stability AI est capable de générer des images, des illustrations, des logos et des designs.
En parallèle, AWS propose ses propres LLMs, baptisées Titan. Deux modèles sont pour l'heure disponibles. Le premier peut résumer un texte, rédiger un article de blog, créer une FAQ, classifier ou extraire de l'information. Le second convertit les entrées d'un texte (mots, phrases, paragraphes…) en représentations numériques contenant "la signification sémantique du texte ".
Qu'en est-il de Google ? Acteur pourtant reconnu pour son expertise dans le machine learning, le groupe de Mountain View a été pris de court par ChatGPT. L'outsider du cloud public tente de raccrocher les wagons en multipliant les initiatives. Les développeurs peuvent désormais se connecter à son cloud pour accéder à PaLM 2, le nouvel LLM qui est censé permettre à Bard, l'IA générative de Google, de dépasser ChatGPT-4. Mais aussi à d'autres modèles maison comme Codey (text-to code), Imagen (génération d'images) ou Chirp (speech-to-text). Le Model Garden fournit, lui, plus de soixante modèles, propriétaires ou open source, conçus par Google ou ses partenaires. Appelé à s'enrichir, ce catalogue couvre déjà un grand nombre de cas d'usage comme la conversion de texte en image ou la traduction automatique.
2. Les start-up
Du côté des start-up, deux catégories se détachent. D'une part, les Américaines, parmi lesquelles figurent (aux côtés d'OpenAI, AI21 Labs, Anthropic et Stability AI) Cohere ou encore Inflection. D'autre part, les jeunes pousses européennes proposant des offres souveraines. Dans ce second groupe figurent les français Mistral AI et Lighton, et l'allemand Aleph Alpha. A la différence de Mistral, Lighton et Aleph Alpha sont déjà en phase commerciale. "Leurs LLMs en mode cloud sont disponibles en Europe et parlent le français. Ce qui n'est pas le cas de Google Bard", signale Didier Gaultier. Autre avantage : ces deux acteurs proposent des approches de transfert learning conçue pour personnaliser finement leur modèle avec des bases de documents ou de questions-réponses ad hoc. "Avec ChatGPT, l'approche est différente. Vous partez d'un modèle très large que vous allez contextualiser sur une thématique en vue de personnaliser les prompts. Le degré de liberté que vous avez est un peu moindre, et la précision plus faible", pointe Didier Gaultier.
"Avec ChatGPT, OpenAI est le seul à combiner quatre mode d'apprentissage"
Reste un élément décevant : ces start-up, qu'elles soient d'origine américaine ou européenne n'atteignent pas le niveau d'ingénierie de ChatGPT. "Il est le seul à combiner quatre mode d'apprentissage : un embendding non-supervisé pour vectoriser les mots, un apprentissage auto-supervisé pour le traitement du langage (qui renvoie au transformer), un mode d'entrainement supervisé qui permet d'apprendre au bot à répondre aux questions, et, enfin, une couche de perfectionnement des réponses via l'apprentissage par renforcement", égraine Didier Gaultier, avant de constater : "La plupart des alternatives n'excèdent pas deux couches. Sans compter des différences en termes de complexité des modèles et de quantité et qualité des data sets d'entrainement."
3. Les entreprises utilisatrices
Parmi les acteurs des LLMs figurent également les entreprises utilisatrices. "C'est un champ qui va fortement monter en puissance dans les mois qui viennent avec la démocratisation de l'IA générative", estime Laurent Letourmy, head of data chez Devoteam Data Driven. "C'est typiquement l'exemple de Bloomberg qui, avec BloombergGPT, a lancé une déclinaison de ChatGPT spécialisée dans la finance."
Pour le consultant de l'ESN, tous les secteurs possédant des puits de données sont potentiellement éligibles à ce type de démarche. "C'est le cas des cabinets juridiques, des cabinets d'architecture ou encore des établissements d'enseignement supérieur", ajoute Laurent Letourmy. Tous ces acteurs pourraient gagner à expérimenter les LLMs en vue d'aller vers une relation client plus personnalisée mais aussi une plus grande automatisation des processus.
4. L'open source
Last but not least, les LLMs open source font figure de catégorie à part entière. Ce domaine est notamment porté par le franco-américain Hugging Face et son projet Bloom. Seul bémol : faire le choix de l'open source impliquera d'entrainer ou de ré-entrainer les modèles. "Ce qui implique, a minima, une dizaine de processeurs graphiques Nvidia H100", estime-t-on chez Business & Decision. Ce GPU coûtant 40 000 dollars l'unité, il faudra donc prévoir un budget d'au moins 400 000 dollars, sans compter le coût de la couche réseau et du reste de l'infrastructure système. "Pour entrainer des grands modèles comme Bard ou GPT-4, la puissance nécessaire est infiniment plus importante. Ce qui explique aussi les montants levés par les start-up", complète Laurent Letourmy. Face à la demande croissante du marché, les cartes Nvidia H100 sont actuellement en rupture de stock.