Facebook, Google et Microsoft dans la course à l'IA multilingue

Les trois géants américains entendent créer des modèles de compréhension universelle. Le défi ? Passer outre l'obstacle des langues pour déployer leurs applications digitales, quel que soit le pays.

Après une première génération de modèles de deep learning taillés pour ingérer quelques dizaines de langues, le natural language processing (NLP) s'oriente désormais vers l'échelle industrielle. Objectif des data scientists : développer des framework suffisamment intelligents pour prendre en charge n'importe quelle langue. C'est le défi que se sont lancé Facebook, Google et Microsoft. Tous trois ont initié ces derniers mois des projets avec cette cible dans en ligne de mire. In fine, le but est de supprimer l'obstacle de la langue pour faciliter la commercialisation de leurs applications et services digitaux, quel que soit le pays ou la région du monde.

Accélérer la traduction automatique

Facebook a été le premier à sortir du bois. En octobre 2020, son laboratoire de recherche en IA publie en open source un modèle de NLP géant centré sur la traduction. Supportant pas moins de 100 langues, sa première version est capable de les traduire de l'une à l'autre dans n'importe quelle combinaison (100x100). Baptisée M2M-100, elle est construite à partir de data sets dans chaque langue au lieu de passer par l'anglais comme intermédiaire, à la différence des modèles multilingues existants jusqu'alors. Pour optimiser la phase d'entraînement, Facebook a fédéré les langues par groupe de 14 en se basant sur leurs similarités linguistiques, géographiques et culturelles. Au sein de chaque groupe, trois jouent le rôle de passerelles avec les autres groupes. Les langues indo-aryennes, tels l'hindi, le bengali et le tamoul, font partie de ces langues relais. Partant de là, le data set d'entraînement se retrouve limité à 7,5 milliards de phrases couvrant les 100 langues ciblées, et le learning ne s'applique qu'à 2 200 sens de traduction au lieu de 100x100.

Facebook évite de passer par l’anglais comme langue intermédiaire de traduction, à la différence des modèles multilingues existants jusqu'alors. Résultat : le réseau de neurones couvrant 100 langues se limite à 2 200 sens de traduction (au lieu de 100x100). © Capture JDN

"Ici, l'enjeu est de parvenir à un résultat dans des langues disposant de peu de données d'apprentissage tout en leur faisant indirectement bénéficier des recherches en IA réalisées à la base sur l'anglais", commente Angela Fan, chercheuse au sein du laboratoire Facebook AI Research (FAIR) à Paris. Depuis, le déploiement de M2M-100 sur le réseau social du groupe a commencé.

Des millions voire des milliards de paramètres

Quelques jours après Facebook, le laboratoire de Microsoft centré sur le NLP (Turing) dévoilait la deuxième version de son modèle T-ULR (pour Turing Universal Language Representation). Il supporte 94 langues. A la différence de M2M-100, ce réseau de neurones n'est pas centré exclusivement sur la traduction. Pour preuve : Microsoft entend l'exploiter pour améliorer la recherche sémantique dans Word ou encore la suggestion intelligente de réponses dans ses messageries Outlook et Teams. Des applications disponibles dans plus de 100 langues. Fort de 24 couches, T-ULRv2 compte de 550 millions de paramètres, contre 15 milliards pour le modèle de Facebook. Un différentiel qui ne l'a pas empêché lors de sa sortie de prendre la tête du classement XTREME de Google. Couvrant une quarantaine de langues, ce benchmark, qui fait désormais référence sur le marché, dresse son indice à partir de divers indicateurs : performance en matière de classification de textes, d'identification de structures sémantiques, ou encore d'habileté dans les questions-réponses multilingues.

Construit à partir de données issues du web, T-ULRv2 s'adosse à un apprentissage non-supervisé. Son principe ? S'entraîner à prédire des mots masqués dans les phrases du corpus. Mais ce, après avoir ingéré une première base de connaissances : des paires de phrases dans deux langues différentes. Le modèle combine ainsi plusieurs méthodes : multilingual masked language modeling (MMLM), translation language modeling (TLM) et cross-lingual contrast (XLCo). C'est là sa grande originalité. Disponible en préversion sur le cloud Azure de Microsoft, T-ULRv2 se présente au final sous la forme d'un réseau de neurones de type Transformer. En parallélisant les traitements grâce à un processus d'apprentissage non-séquentiel, il raccourcit la phase de learning et permet du même coup d'intégrer des data sets beaucoup plus importants. Ce mode deep learning n'est pas nouveau. Il a permis l'émergence de systèmes de NLP pré-entraînés célèbres comme BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-Training Transformer) formés à partir de volumes massifs de contenu, notamment issus de Wikipedia.

Schéma illustrant une partie de l'approche d’apprentissage du modèle T-ULRv2 de Microsoft. Elle combine multilingual masked language modeling (MMLM) et translation language modeling (TLM). Une méthode initialement conceptualisée par Facebook. © XML

En novembre 2020, c'était autour de Google de publier en open source son modèle T5m. Comme son prédécesseur (le T5) sur lequel il est basé, il est taillé pour gérer à la fois la traduction et la synthèse de texte. Dans la droite ligne de T-ULRv2, il repose également sur un réseau de neurones Transformer. T5m a été entraîné à partir du data set open source MC4. Une base qui compte 10 000 pages web dans 107 langues. Supportant 101 langues, T5m orchestre jusqu'à 13 milliards de paramètres en fonction de l'analyse prédictive à réaliser. Avec cette initiative, l'objectif de Google est de créer à terme un moteur capable de traiter potentiellement jusqu'à 7 000 langues ou dialectes. "Pour éviter les mauvaises interprétations dans les résultats, nous avons défini une procédure qui consiste à mélanger les données de pré-entraînement non-étiquetées durant l'étape de fine-tuning. Ce qui améliore le niveau de précision", souligne l'équipe de recherche en charge du projet.

"Le modèle T5m démontre la supériorité des méthodes d'apprentissage dites de représentation multilingue"

"Globalement, T5m démontre la supériorité des méthodes d'apprentissage dites de représentation multilingue", arguent les scientifiques de Google. Sur ce point, le groupe de Mountain View rejoint donc la piste suivie par Microsoft avec sa technologie de Turing Universal Language Representation. Les scientifiques de Google reconnaissent également les bénéfices d'un apprentissage en plusieurs étapes, process là-encore exploité pour échafauder la version 2 de T-ULR comme indiqué plus haut. "Les premiers résultats de T5m suggèrent qu'après avoir réalisé une première phase simple de pré-entraînement, un passage à l'échelle du learning sur de gros data set, en utilisant des techniques de traitement intermédiaire, de filtrage et d'exécution en parallèle, constitue une piste qui fonctionne", reconnaît-on chez Google. Au moment de sa sortie, T5m parvient lui-aussi à décrocher la première position du benchmark XTREME.

Une guerre entre les Etats-Unis et la Chine

Moins de cinq mois après, les cartes sont largement rebattues. En tête du classement XTREME avant que Microsoft puis Google ne viennent l'y déloger, Alibaba est de nouveau en première place de l'indice grâce à une mise à jour de son modèle de NLP Veco annoncée en mars 2020. Se présentant sous la forme d'un réseau de neurones Transformer multilingue, Veco répond à deux cas d'usage : le conditional natural language generation (NLG) d'une part, le natural language understanding (NLU) d'autre part. Dans le premier cas, Alibaba s'appuie sur l'architecture typique de Transformer. Particulièrement bien adaptée à la traduction, elle s'articule autour d'un process dit de séquence à séquence qui consiste à soumettre un texte dans une langue (séquence 1) puis obtenir en sortie de l'IA ce texte dans une autre langue (séquence 2). Dans le cas du NLU, Veco mise plutôt sur l'Autoregressive Transformers. Une catégorie de modèle Transformers qui se base sur l'historique des prédictions pour en générer de nouvelles. Les applications ciblées ? La synthèse de texte ou encore l'auto-complétion comme le propose par exemple Google dans Workplace en proposant des suggestions au fur et à mesure de la saisie.

Occupant la quatrième du place du palmarès XTREME à l'heure de la rédaction de cet article, Alibaba n'est pas le seul acteur chinois à monter en puissance dans le classement de Google. Depuis le début de l'année, ses compatriotes ByteDance, éditeur de Tiktok, et Baidu, numéro 1 de la recherche web en Chine, sont parvenus à se hisser respectivement en deuxième et troisième position de l'indice. La guerre du NLP a bel et bien commencé.

Accélérer la traduction automatique

Des millions voire des milliards de paramètres

Une guerre entre les Etats-Unis et la Chine

Modèles d'IA de référence