Mais pourquoi les robots ne savent-ils toujours pas parler ?

Mais pourquoi les robots ne savent-ils toujours pas parler ? D'Alexa à Google Assistant, les IA vocales les plus évoluées sont incapables de tenir une conversation. Comment expliquer ce paradoxe ?

"Désolée, je ne suis pas sûre." Quel utilisateur d'Alexa ne s'est pas vu répondre cela par l'assistance vocal d'Amazon, le plus souvent suite à une demande d'information complexe. Mais aussi quand une requête habituellement comprise n'est pas bien formulée ou articulée. Pourtant, l'entreprise de Seattle compte plus de 10 000 salariés travaillant sur Alexa et ses terminaux Echo et revendique plusieurs centaines de millions de devices compatibles avec son assistant. Un chiffre englobant, en plus de ses produits, ceux de dizaines de partenaires : écrans de LG et Samsung, systèmes de surveillance vidéo Ring... Une base installée qui devrait permettre au groupe de rectifier le tir via un learning massif permanent. Il n'en est rien. Face à Amazon, Google, bénéficie de son historique dans la recherche web et de plus d'un milliard d'appareils embarquant son assistant, des haut-parleurs aux smartphones Android. Résultat, Google Assistant détrône Alexa au jeu de la compréhension (cf. le benchmark dressé par Bespoken). Reste un constat : à l'instar de ce dernier, il est tout aussi incapable de tenir une conversation. 

"Les robots, même les plus évolués, sont à des années lumières des capacités de compréhension et d'expression humaines", résume Frédéric Landragin,  expert en informatique-linguistique au CNRS et auteur de l'ouvrage "Comment parle un robot". "Il suffit par exemple de dire le verbe prendre à un enfant en réalisant le geste correspondant pour qu'il comprenne cette notion et soit capable de l'utiliser." Pour l'intégrer, un algorithme d'apprentissage devra, lui, ingurgiter des milliers de phrases. "Même s'il dispose des règles grammaticales (étant de nature statique, elles sont aisées à coder, ndlr), un bot devra in fine prendre en compte toutes les combinatoires entre les verbes et les situations auxquelles ils font référence. Imaginez qu'on ait rien que 1 000 situations par verbe. La phase d'entraînement pourrait prendre des années en vue d'aboutir à un premier modèle de langue avec la finesse souhaitée", calcule Frédéric Landragin. Au-delà du traitement des concepts, la question est également de savoir comment la machine appréhende un texte dans son ensemble. 

La délicate question du contexte

Pour relever ces défis, les chercheurs en IA hissent désormais l'apprentissage des modèles au niveau des paragraphes et des documents. "Ce qui permet à la machine de commencer à saisir le contexte dans lequel un mot est prononcé. Par exemple, elle pourra faire le lien entre le pronom il et un ou plusieurs noms auxquels celui-ci fait référence dans les phrases précédentes", explique Angela Fan, chercheuse au sein du laboratoire Facebook AI Research (FAIR) à Paris. Parmi ses projets de recherche dans ce domaine, FAIR met en avant Blender Bot. Un prototype de chatbot open source conçu pour dialoguer "comme un humain" sur n'importe quel sujet. Basé sur un réseau de neurones comptant 9,4 milliards de paramètres, il a été entraîné sur un corpus de 1,5 milliard de conversations. "Blender Bot garde en mémoire les échanges que vous avez eus avec lui. Ce qui lui permet de tenir une conversation engageante. Il peut par exemple revenir sur un projet évoqué avec lui la veille", illustre Angela Fan.

"A la différence de l'Homme, la machine n'est pas douée de sens commun. Résultat : elle peine à saisir les éléments implicites du langage"

La particularité de Blender ? Le robot de Facebook introduit un mode d'apprentissage, baptisé Blended Skill Talk (BST), combinant trois niveaux. D'abord, une architecture de machine learning (ML) est conçue pour exprimer des connaissances en langage naturel. Elle s'adosse à un data set composé de conversations exprimant des connaissances extraites de Wikipedia. Ensuite, un modèle de prédiction détecte le profil de l'interlocuteur à partir des interactions avec lui, et en déduit des sujets susceptibles de l'intéresser. Enfin, un set de 25 000 conversations issues de situations émotionnelles permet d'appréhender les sentiments exprimés pour générer des réponses empathiques. 

Lancé en mai 2020, Blender Bot répond à Meena, un bot expérimental dévoilé par Google en janvier 2020. Basé sur un réseau de neurones de 3,6 milliard de paramètres, Meena a été entraîné à partir de 341 Go de textes issus de conversations sur les réseaux sociaux. Chiffres à l'appui, Facebook affirme que Blender est plus performant. 

Entrant tous deux dans la catégorie des chatbots, Blender et Meena sont des voicebot en puissance. Il suffit en effet de les équiper de couches de speech-to-text et text-to-speech pour leur donner la parole. "Dans ces domaines que sont la reconnaissance de la parole et la synthèse vocale, les réseaux de neurones ont fait leur preuve. Les capacités informatiques ont suffisamment évolué en parallèle pour les entraîner sur des volumes massifs de données", rappelle Frédéric Landragin. 

Saisir les subtilités du langage

Chatbot comme voicebot tendront à exceller dans le traitement de questions portant sur un périmètre précis et donc aisé à modéliser, par exemple la météo ou les cotations en bourse. Mais les requêtes plus subtiles compliquent la donne. "A la différence de l'Homme, la machine n'est pas douée de sens commun. Résultat : elle peine à saisir les éléments implicites du langage", explique Frédéric Landragin. "Par exemple, la phrase 'Jean a arrêté de battre sa femme' sous-entend à la fois que Jean est marié et qu'il battait sa femme à une époque. Un robot aura beaucoup de mal à accéder à ces sous-entendus." 

Autre difficulté : relever le test du schéma de Winograd qui met l'IA au défi de cerner à quel(s) terme(s) un pronom ambigu fait référence dans un discours. Dans la phrase "La coupe ne tient pas sur l'étagère car elle est trop petite", l'IA doit identifier que le pronom "elle" renvoie au terme "étagère" et non à celui de "coupe". "Pour effectuer ce rapprochement, la machine devra disposer de différents référentiels. D'abord ceux relatifs aux modèles de coupes et aux modèles d'étagères pour aboutir à une comparaison de leurs tailles et de leurs volumes moyens respectifs. Ensuite elle devra intégrer le modèle de la gravitation pour assimiler le fait qu'une coupe se pose sur une étagère et non l'inverse", détaille Frédéric Landragin. "Ces combinaisons sont extrêmement complexes à réaliser pour un robot. Nous sommes encore très loin du compte."  

"Des modèles linguistiques entraînés à grande échelle embarque dès lors un volume important de connaissances pour réaliser des déductions très ciblées"

Angela Fan chez Facebook pondère : "Ces deux dernières années, la recherche a beaucoup évolué sur le sujet. Auparavant, les modèles de langue étaient construits à partir de petits data set pour chaque cas de figure. Désormais, nous mettons en œuvre des modèles linguistiques entraînés à grande échelle sur des bases d'apprentissage massives issues du web, et embarquant in fine une somme importante de connaissances pour réaliser des déductions très ciblées." Sorti des laboratoires de Google, l'algorithme open source Bert cible notamment cette problématique. 

Reste à savoir comment faire pour réduire les volumes de données d'entraînement, et par conséquent le temps d'apprentissage des algorithmes. "La création d'un modèle conversationnel de haute qualité nécessite généralement plusieurs semaines de learning.", commente Angela Fan.  "A travers le modèle open source CamemBERT, centré sur la langue française, nous sommes parvenus à réduire la taille des données d'entraînement en enrichissant leur variété et en compensant cette réduction via de l'augmented learning en réarrangeant les phrases", dévoile-t-elle.

Un robot interprète ?

Il est un domaine où le bot excelle en matière de traitement du langage : celui de la traduction automatique. "Le deep learning permet d'atteindre sur ce terrain une qualité incomparable à ce qu'on pouvait réaliser avant 2010-2012", constate Frédéric Landragin. "Dans la phrase 'Mon avocat est pourri, merci de m'en donner un autre', Google Translate s'orientera vers le fruit et non le juriste si un terme tel que restaurant apparaît à proximité dans le texte soumis." Si aucun terme apparenté à l'un et l'autre sens du mot avocat n'est présent, le service proposera alors les deux traductions possibles.

Fort de plusieurs années de recherche en traduction automatique, le laboratoire Facebook AI Research a publié mi-octobre en open source un modèle supportant 100 langues et capable de les traduire de l'une à l'autre dans n'importe quelle combinaison (100x100). Baptisé M2M-100, il a été bâti à partir de data sets issus de chaque langue au lieu de passer par l'anglais comme langue intermédiaire à l'instar de la plupart des modèles multilingues existants. 

Pour optimiser le process de learning de M2M-100, Facebook a fédéré les langues par groupe de 14 en se basant sur leurs similarités linguistiques, géographiques et culturelles. Au sein de chaque groupe, trois langues jouent le rôle de passerelles avec les autres groupes. Pour les langues indo-aryennes, l'hindi, le bengali et le tamoul ont ainsi été identifiés comme langues relais. Partant de là, le data set d'entraînement se retrouve limité à 7,5 milliards de phrases couvrant les 100 langues, et le learning ne s'applique qu'à 2 200 sens de traduction (au lieu de 100x100). "Ici, l'enjeu est de parvenir à un résultat dans des langues disposant de peu de données d'apprentissage tout en leur faisant indirectement bénéficier des recherches en IA réalisées à la base sur l'anglais", commente Angela Fan. Et un porte-parole du réseau social de confier : "L'équipe de recherche travaille actuellement à déployer ce modèle sur Facebook."