Les dessous techniques de Google Duplex

Présenté au dernier I/O, Google Duplex est une plateforme d'intelligence conversationnelle qui se propose de passer des appels téléphoniques à la place de l'utilisateur. Explications.

La démonstration de Google Duplex a constitué le sommet de la dernière conférence I/O qui s'est tenue en mai dernier (revoir la vidéo). Associant reconnaissance vocale, analyse sémantique et text to speech, ce nouveau service d'intelligence conversationnelle se propose de téléphoner à la place de l'utilisateur et de prendre un rendez-vous chez un commerçant. Dans les deux cas d'usage proposés, il s'agissait d'effectuer une réservation dans un restaurant ou un salon de coiffure.

La fluidité de la conversation et l'intonation de la voix artificielle, très proches de celle d'un homme, reprenant jusqu'à ses tics avec ses "hum" et ses "euh" ponctuant le dialogue, en a bluffé plus d'un. Passé "l'effet waouh", certains ont y vu une nouvelle version du Turc mécanique. Cet automate joueur d'échecs de la fin du XVIIIe siècle qui gagnait toutes ses parties n'était qu'un canular, dissimulant un homme derrière ses mécanismes.

Pour lever les doutes, le géant américain a fait tester Google Duplex à une poignée de journalistes triés sur le volet. Il s'est aussi fendu d'un billet de blog pour détailler les technologies à l'œuvre. Google le reconnaît. Le dispositif arrive à ce niveau d'excellence sur un périmètre réduit et un champ lexical fermé. Pour interagir avec un coiffeur ou un restaurateur, Duplex est spécialement entraîné pour reconnaître les phrases types, les mots utilisés et leur sens dans un contexte donné.

Au cœur de Duplex, on trouve un réseau de neurones récurrents construit à l'aide de TensorFlow Extended (TFX), la plateforme de machine learning de Google. Ce réseau de neurones a été formé sur un corpus d'un très grand nombre de conversations téléphoniques anonymisées retranscrites sous forme de textes via la technologie de reconnaissance automatique de la parole (ASR) de Google.

"De l'innovation, pas de révolution"

Pour Frédéric Bouchery, lead développeur en charge des applications vocales chez CCM Benchmark (éditeur du Journal du Net), "Google parle d'intelligence artificielle, par facilité, mais le système semble davantage reposer sur des mécanismes d'automatisation et de machine learning. Si on donne énormément de données en entrée, le modèle aura quasiment toutes les réponses en sortie. Le système en soi n'est pas en mesure de "réfléchir" et d'établir des causalités. Il ne fait que répéter des schémas d'interaction basés sur un long entraînement."

Autrement dit, Google Duplex ne peut pas (encore) prétendre mener une discussion à bâtons rompus avec un être humain sur la pluie et le beau temps avec un tel niveau de fluidité. "Si le modèle devait sortir des cas d'usage pour lesquels il a été entraîné, je serais curieux de voir comment il se comporterait. De même si le restaurateur au bout de la ligne devait s'absenter ou répondre à un autre appel, la machine serait perdue."

"La vraie innovation repose sur les avancées en termes de text-to-speech"

Quant au réseau de neurones récurrents évoqué par Google, il doit appartenir, selon notre expert, à la catégorie dite LSTM (long short term memory). "Cette famille d'algorithmes séquentiels prend en compte les interactions précédentes et pas seulement la dernière." Ce LSTM va pouvoir, par exemple, se souvenir de la date proposée dans un premier temps par le restaurateur. " Cela reste néanmoins de l'apprentissage", tempère Frédéric Bouchery.

Si, à ses yeux, Google Duplex n'est donc pas une révolution, il estime que la vraie innovation repose sur les avancées en termes de text-to-speech (TTS). Google utilise deux moteurs d'optimisation maison pour la synthèse vocale. Le premier, WaveNet, est réseau de neurones profonds créé par sa filiale DeepMind. Dévoilé il y a deux ans, il produit une voix de synthèse réaliste en échantillonnant la voix humaine.

Le second moteur, Tacotron 2, a été présenté en décembre dernier. A partir des caractéristiques propres à un spectrogramme audio, il capture non seulement la prononciation des mots, mais aussi diverses subtilités de la parole humaine, y compris le volume, la vitesse et l'intonation. Le résultat est restitué sous forme d'onde de 24 kHz en utilisant WaveNet. On obtient ainsi une voix à l'intonation crédible, marquant des pauses, distillant ses disfluences (les "hum" et les "euh"), bref s'éloignant de la voix de robot habituelle. Et ce n'est qu'un début, les chercheurs de Google estimant qu'ils n'ont pas encore réussi à produire un ton heureux ou triste.

"Les cas d'usage pourraient rapidement dépasser ce cadre de la prise de rendez-vous"

Google s'attaque, de fait, à la complexité du langage humain. Les deux chercheurs, auteurs du billet de blog sur Duplex, notent que les gens parlent plus rapidement et moins clairement que lorsqu'ils s'adressent à une machine. "Ils se corrigent au milieu d'une phrase, sont plus verbeux que nécessaire ou omettent des mots et s'appuient plutôt sur le contexte. Ils expriment également un large éventail d'intentions, parfois dans la même phrase". Une tâche rendue plus ardue encore pour des appels téléphoniques parasités par les bruits de fond et une qualité sonore aléatoire.

Il faut aussi tenir compte du temps latence attendu par les utilisateurs. Par exemple, après "bonjour ?", ils s'attendent à une réponse instantanée. En revanche, un client comprendra que le restaurateur prendra un certain temps pour consulter son carnet de réservations. Duplex réduit ou allonge ce temps de latence en fonction du moment dans la séquence.

Duplex va-t-il se substituer aux opérateurs de centre d'appel ?

Alors quel avenir pour Duplex ? Google prévoit de le déployer progressivement. Cet été, il testait sa technologie d'intelligence conversationnelle, intégrée dans son Assistant, auprès de quelques utilisateurs et commerces partenaires. Google la destine, pour l'heure, aux entreprises qui n'utilisent pas de services de réservation en ligne. Duplex peut également réduire le nombre de rendez-vous non honorés en rappelant les clients peu de temps et en leur proposant, le cas échéant, de les annuler ou de les reporter.

Avec les progrès à un rythme exponentiel que connaît l'IA, les cas d'usage pourraient rapidement dépasser ce cadre de la prise de rendez-vous. La feuille de route de Google n'est pas encore connue mais si ce dernier décidait d'intégrer la technologie Duplex à son enceinte connectée Google Home, l'utilisateur pourrait avoir l'impression de parler à une véritable être humain, estime le site Cnet qui a pu procéder à un test, à l'image de Samantha, l'agent virtuel de Her, le film Spike Jonze.

Pour Frédéric Bouchery, "ce type de technologie pourrait remplacer demain les serveurs vocaux aux interactions limitées et à plus long terme les opérateurs en centre d'appel pour les tâches les plus basiques. De nombreux opérateurs de hot line suivent déjà un script et quand ils arrivent à ses limites passent la main à un niveau supérieur. " Une arborescence a priori modélisable. La machine ne connaissant pas la fatigue et dépourvue d'a priori pourrait se montrer d'une patience infinie auprès de ses interlocuteurs humains.