Les secrets de Google pour dominer le traitement automatique du langage

Mountain View adosse son offre cloud de NLP à la même techno de machine learning que celle de son moteur de recherche. Le groupe ne cesse de multiplier les projets sur ce terrain.

Sur le front du traitement automatique du langage, Google fait figure de référence. Pour imposer sa marque sur ce terrain, le groupe californien commercialise une offre cloud basée sur la même technologie de deep learning que celle utilisée par son moteur de recherche et son assistant intelligent, Google Assistant. Elle se décline en deux briques. Lancée en 2016, la première, baptisée Natural Language, ouvre accès à une série de modèles de machine learning prépackagés. La seconde, AutoML Natural Language, personnalise l'analyse de texte et crée des algorithmes personnalisés. "L'offre de NLP de Google prend véritablement toute sa dimension avec AutoML", estime Arnaud Cassaigne, responsable produit pour les solutions IA chez Mondeca, éditeur de logiciels de gestion des données métier et d'analyse sémantique.

Sous forme d'API, Google Natural Language couvre les principaux enjeux du traitement automatique du langage via divers modèles pré-entrainés et prêts à l'emploi. L'un est dessiné pour détecter des "entités" dans des flux de documents ou de messages : noms, prix, adresses, montants, lieux... "Typiquement, on peut s'appuyer sur ce service pour développer des processus de gestion automatique de reçus, de factures ou de contrats", explique-t-on chez Google. Un autre modèle est conçu pour identifier les sentiments dans les textes : attitudes, opinions, impressions... De quoi détecter rapidement des feebacks de clients, que ce soit sur les réseaux sociaux ou dans des mails, en vue d'alimenter la politique marketing ou plus prosaïquement réagir rapidement à une plainte.

Automatiser le NLP

Dernier type de modèle proposé par Natural Language : l'analyse syntaxique, qui consiste à détecter des éléments de discours et de structure dans un texte. Sur ce plan, Google se détache nettement de ses concurrents, que sont AWS et Microsoft (avec Azure), en prenant en charge pas moins de 10 langues : l'allemand, l'anglais, le chinois (simplifié et traditionnel), le coréen, l'espagnol, le français, l'italien, le japonais, le portugais et le russe. Au-delà du NLP stricto sensu, Google complète son offre de plusieurs briques complémentaires. "Vous pouvez associez Natural Language à notre API Speech-to-Text, par exemple pour dégager des insights à partir de conversations audio. Vous pouvez aussi le combiner avec la reconnaissance optique des caractères fournie par notre API Vision afin d'analyser des documents scannés. Enfin, notre API Translation vous permet d'extraire les entités et d'analyser les sentiments exprimés dans différentes langues", détaille Google.

Le groupe tire parti d'un savoir-faire reconnu dans le deep learning. Principal avantage de ce type d'algorithme en NLP ? Il permet de s'affranchir de l'ingestion de dictionnaires en misant sur un apprentissage non-supervisé appliqué à des data sets de textes ou de voix. Une méthode qui aboutit rapidement à des réseaux de neurones incorporant les structures grammaticales, les mots et expressions, et les relations que chacun entretient. Résultat : Google Assistant est également, et de loin, l'assistant intelligent prenant en charge le plus de langues. Il en supporte plus de 44, contre 21 pour Siri et 7 pour Alexa. Comme ce dernier, Google Assistant est par ailleurs capable de parler deux langues à la fois.

Comparatif assistants vocaux

Avec AutoML Natural Language lancé par Google en décembre 2019, il ne s'agit pas uniquement de proposer un NLP statique, mais bien d'automatiser la création de modèles personnalisés en fonction des besoins spécifiques des clients. A l'instar de l'API Natural Language, ce service recouvre la détection d'entités, l'analyse de sentiment, l'analyse syntaxique, sans oublier le classement de contenus. Il intègre en plus l'analyse de la structure des documents. Comment fonctionne-t-il ? En amont, AutoML Natural Language sélectionne plusieurs algorithmes possibles en fonction de la tâche à réaliser. Via une couche de scoring (combinant algorithmes d'optimisation génétique, random search et optimisation bayésienne), il compare ensuite leurs résultats. Compte tenu de l'objectif cible à atteindre, le plus performant est retenu. Et le tour est joué.

Google AutoML est reconnu pour sa grande qualité en matière de génération de modèles et de feature engineering (lire l'article Automatisation des IA : Google plus performant… mais moins transparent). Son principal point faible : sa maigre transparence sur les choix technologiques réalisés pour générer les modèles. "N'oublions pas qu'AutoML s'appuie sur la technologie neural architecture search de Google qui aboutit à des modèles de deep learning par définition opaques", rappelle Christian Farnier, practice manager data intelligence chez Umanis. A l'inverse des algorithmes de ML statistiques, le deep learning, lui, ne se résume pas à des formes analytiques simples. Son fonctionnement n'est donc pas facilement décryptable, ou interprétable dans le jargon des spécialistes, et ses résultats, même s'ils se révèlent performants, restent difficilement explicables.

Une plateforme de bot

En février 2019, Google a complété cet édifice d'une plateforme de chatbot. Baptisée Dialogflow, elle permet de créer des agents conversationnels en s'appuyant sur une première base de 2 000 intentions (ou questions). "Une base que les clients pourront étendre à 20 000 intentions personnalisées", précise Google. Dialogflow détecte évidemment les entités et apprend à en identifier de nouvelles une fois entraîné et déployé. Disponible dans 40 langues, la solution s'accompagne d'une console d'analyse en temps réel des mauvaises réponses taillée pour enrichir le bot au fil de l'eau en fonction du contexte business ou utilisateur. Basé sur les services de speech-to-text et de text-to-speech du cloud de Google, Dialogflow met en œuvre aussi bien des chatbots que des voicebots. En bout de course, les développements sont évidemment déployables sur Google Asssistant et Hangouts Chat. Ils peuvent également venir se nicher dans les messageries Telegram et Slack, ou encore dans des serveurs vocaux interactifs comme ceux d'Avaya ou de Genesys.

En parallèle du développement de nouveaux produits, Google avance ses pions sur le front de la recherche en NLP. En février 2019, le groupe a dévoilé une architecture d'apprentissage expérimentale permettant de réduire jusqu'à 29% les erreurs de reconnaissance vocale sans nécessiter de modèle de langage. En avril, il présentait une méthode consistant à recourir à l'analyse visuelle des spectrogrammes sonores pour améliorer encore la reconnaissance vocale. Une technologie que Google indique avoir implémentée à ses smartphones Pixel 4 et Pixel 4 XL ainsi qu'à la version anglaise de Google Assistant. En septembre 2019, les data scientists de Moutain View annonçaient avoir conçu un modèle de reconnaissance vocale multilingue, avec à la clés une preuve de concept sur 10 dialectes indous avec "une amélioration notable" en automatic speech recognition. Pour finir, en octobre 2019, Google annonçait avoir bâti un système de traduction universel, entrainé sur 25 milliards d'exemples, et capable de prendre en charge pas moins de 103 langues. Reste à savoir quand le groupe intégrera cette technologie dans ses produits.