La Chine met les bouchées doubles pour combler son retard en matière d'IA générative. Baidu et Alibaba investissent le terrain et mobilisent des millions de développeurs.

Avec l'avènement de ChatGPT et son retentissement mondial, l'IA générative est devenue en quelques mois un sujet géopolitique majeur. Face à la prouesse d'OpenAI, la Chine s'est mise en ordre de bataille. Dès mars 2023, Baidu levait le voile sur Ernie Bot. Intégrant le mandarin et plusieurs dialectes chinois, la première version de l'application déçoit. Taillée pour générer des textes, des vidéos et réaliser des calculs mathématiques, elle n'atteint pas, et de loin, les capacités d'IA généraliste de ChatGPT. L'action de Baidu dévisse alors en bourse. Robin Li, CEO du groupe, reconnait que l'assistant est "inférieur" à son concurrent, tout en maintenant qu'il devait être rapidement officialisé compte tenu des attentes du marché.

Lors de sa conférence Wave Summit Deep Learning le 16 août 2023, Baidu lance une nouvelle version d'Ernie Bot. Cette fois, le résultat est à la hauteur des attentes. En grande partie réécrite, la nouvelle mouture se veut d'abord plus rapide. Ensuite, elle intègre une série de plugins visant à en étendre la palette fonctionnelle tous azimuts. A l'instar de la passerelle entre ChatGPT et Bing, Baidu Search permet d'intégrer Ernie au moteur de recherche de Baidu. Objectif : aller y glaner des réponses, à la volée, en fonction des questions posées, y compris sur l'actualité chaude. Autre extension, ChatFile gère les interactions conversationnelles portant sur de longs documents. Baptisé Data Analytics & Visualization, un plugin génère quant à lui graphiques et nuages de mots. Un autre (Visual Interaction) prend en charge le dialogue intégrant des images. Enfin, Text-to-Video convertit le texte en vidéo.

Fin août 2023, la solution est ouverte au grand public. En l'espace d'une journée, les internautes auraient effectué plus 33 millions de requêtes. Le résultat semble bel et bien à la hauteur des attentes. Le modèle est notamment capable de générer un raisonnement en mode conversationnel ou mode chain of thought. Seul bémol, et pas des moindres : Ernie élude les questions sensibles pour le régime chinois. A l'évocation de la violente répression des manifestations prodémocratie de la place Tian'anmen à Pékin en 1989, il répond : "Changeons de sujet et recommençons". A une requête sur l'actuel Dalaï-Lama, il fournit des informations sur le Dalaï-Lama qui vivait au XVIIe siècle.

Objectif : combler le retard accumulé

En coulisse, Baidu lance simultanément la version 2.5 de PaddlePaddle, la plateforme open source de deep learning qui motorise Ernie Bot. Pour l'occasion, elle est dotée d'une toute nouvelle architecture et de fonctions différentielles optimisées. Parmi ses évolutions, PaddlePaddle améliore ses performance d'entrainement et d'inférence via l'implémentation de technologies d'apprentissage parallèle hybride adaptatif et diverses optimisations touchant notamment à la compression, à l'inférence et au déploiement de modèles.

En parallèle, le moteur de recherche chinois livre Baidu Comate. Un assistant de programmation qui génère du code, des commentaires, des tests et de la documentation dans plus de 30 langages, avec à la clé la prise en charge de plus de 10 environnements de développement. D'après Baidu, il s'agit du premier outil du genre développé en Chine.

Baidu n'est pas le seul groupe chinois en lice. Dès avril 2023, Alibaba lui emboite le pas avec Tongyi Qianwen. Un chatbot reposant sur un large language model (LLM) de 7 milliards de paramètres : Qwen-7B. Le LMM a ingéré des milliards de mots et de phrases couvrant des domaines variés : actualité, finance, éducation, littérature, médias sociaux, e-commerce, loisir... A l'instar de ChatGPT, Tongyi Qianwen s'adosse à plusieurs couches en vue de contextualiser les questions : vectorisation, pré-entrainement, transformer, self-attention. De même, il ne se contente pas de générer des réponses. Il est capable de construire des textes en fonction d'un thème et d'un style donné, voire de synthétiser et même traduire des documents. Il prend en charge plusieurs langues parmi lesquelles le mandarin, le japonais, le coréen ou encore l'anglais.

Début juin, Alibaba annonce l'intégration de Tongyi Qianwen à son offre cloud Tongyi Tingwu taillée pour traduire des messages vocaux ou vidéo en texte. Objectif : retranscrire des contenus multimédias avec une plus grande précision tout en proposant une synthèse de leurs points clés. Tongyi Qianwen donnera naissance à d'autres fonctions d'IA en mode cloud d'ici la fin de l'année. Au programme : la traduction simultanée entre l'anglais et le chinois, la réalisation de synthèse de slideshow PowerPoint ou encore la compilation automatique de réponses audio / vidéo.

Une communauté de 6 millions de développeurs

Derrière la technologie, Baidu comme Alibaba ont tous deux conscience que la réussite passe par le développement d'une communauté de développeurs. Du côté de Baidu, on met en avant un studio de développement de foundation models (l'AI Studio) autour duquel s'est fédéré pas moins de 6,09 millions de développeurs. Côté Alibaba, on a mis sur pied le le Tongyi Qianwen Partnership Program qui a pour but de co-créer des LLM verticaux en lien avec des partenaires de diverses industries, depuis les transports jusqu'à la finance en passant par l'énergie, la pétrochimie, les télécommunications ou encore l'hôtellerie.

Ce n'est pas fini. La branche cloud d'Alibaba à l'origine de Tongyi Qianwen (Alibaba Cloud) livre fin août deux LLM open source : Qwen-VL et Qwen-VL-Chat. Version multimodale de Qwen-7B, le premier est axé sur la reconnaissance d'images. Il peut par exemple répondre à des questions ouvertes centrées sur plusieurs photos ou encore générer des légendes, sans pour autant prendre en charge la HD néanmoins. Quant au second LLM open source dévoilé, il s'agit d'un modèle conversationnel conçu pour répondre à des interactions complexes. "S'appuyant sur des techniques d'alignement, cet assistant d'IA présente un éventail de capacités créatives, notamment la rédaction de poèmes et d'histoires à partir d'images, le résumé du contenu de plusieurs images et la résolution de questions mathématiques affichées sur des images", précise un porte-parole d'Alibaba Cloud.

Dernier chapitre en date : début septembre, le PDG de Baidu, Robin Li, dénombre plus de 70 modèles de langue comportant chacun plus d'un milliard de paramètres en Chine.