Mark Webster (Adobe) "L'UX joue un rôle clé pour bâtir une IA vocale de qualité"

En charge de la feuille de route de l'éditeur dans le vocal, le directeur produit détaille la stratégie du groupe californien sur ce terrain.

Comment Adobe attaque-t-il la problématique de l'UX vocale ?

Mark Webster est directeur produit chez Adobe et gère la feuille de route du groupe américain sur le front du design d’expérience vocale. © Adobe

Même si les applications vocales sont désormais utilisées par des millions de personnes à travers le monde, suite notamment à l'émergence d'assistants comme Alexa, les cas d'usage restent finalement assez contraignants et relativement peu nombreux. Les applications les plus utilisées sont finalement très basiques, se limitant à la consultation météo, au réveil ou à la lecture de musique.

Partant de là, notre stratégie chez Adobe vise à mettre ce média à la portée de la communauté des créatifs pour leur permettre de créer un process de design adapté. L'idée est de leur donner les moyens de cerner où le vocal peut faire sens au sein de l'expérience digitale, notamment via des outils pour créer et tester des prototypes et ainsi contribuer à l'émergence de conventions pour créer ces interfaces. Car il faut bien l'avouer, il n'existe aujourd'hui aucune convention dans ce domaine. Nous en sommes au tout début.

Les premiers retours d'expérience démontrent que le vocal ne remplace pas l'interface graphique, mais vient souvent la compléter. Dans certains cas, il sera préférable de répondre à une demande formulée vocalement par des contenus graphiques affichés sur un écran, les informations sollicitées par l'utilisateur n'étant pas appropriées au format audio. Dans d'autres cas, tel le contrôle d'objets domotiques, l'interaction vocale prendra tout son sens. De même, le vocal sera approprié à la prise de notes par un professionnel sur le terrain, etc.

Mais l'intelligence artificielle peut aussi intervenir pour créer une expérience vocale interactive, conversationnelle...

Le deep learning qui représente la principale avancée en IA de ces dernières années a permis à la reconnaissance vocale de s'imposer en réduisant le taux d'erreur au moment de l'écoute par la machine. Via le natural language generation, on est aussi capable de synthétiser une voix qui rapproche de la voix humaine. Mais l'IA a encore beaucoup de mal à saisir l'intention des questions formulées verbalement. Au-delà des problématiques de data sets et de machine learning qui entrent en jeu ici, c'est aussi la qualité de l'interface vocale qui fera toute la différence. La manière dont elle sera conçue et intégrée à l'expérience digitale aura évidemment une influence sur la manière d'interagir de l'utilisateur, la façon dont il s'exprimera, avec plus ou moins de précision et de pertinence. Ce qui aura un impact direct sur la capacité de l'IA à cerner ses intentions.

Comment avez-vous introduit le design vocal dans l'outil de conception d'expérience utilisateur web et mobile Adobe XD ?

Nous avons commencé à intégrer le vocal dans Adobe XD à différents niveaux. Pour le prototypage d'interface utilisateur, il est désormais possible de créer des triggers vocaux (ou commandes vocales, ndlr) et de les associer à des actions dans l'application. Nous avons en parallèle défini la notion de réponse vocale. Evidemment, toutes les combinaisons sont possibles. On peut associer trigger classique, par exemple un contrôle clavier, à une réponse vocale, ou encore un trigger vocal à l'apparition d'un nouvel écran, etc.

"Les interactions vocales vont devenir cross-device, et s'adapter selon les contextes de l'expérience digitale"

Cet été, nous avons livré une première intégration d'Adobe XD à l'assistant vocal Alexa. Adobe XD permettait déjà de prototyper une application pour mobile et de la tester sur un ou plusieurs smartphones. Dans la même logique, cette intégration à Alexa ouvre la possibilité de porter un prototype sur une enceinte embarquant l'assistant vocal d'Amazon pour mieux éprouver son expérience utilisateur.

Avez-vous équipé Adobe XD d'un environnement graphique pour faciliter le storyboarding et le design d'applications vocales ?

Adobe XD intègre la notion de plans de travail. Historiquement, chaque plan de travail représente un écran de l'application en cours de design. Nous avons adapté ce concept à la création d'interfaces vocales. Dans le cas d'un projet comprenant des interactions verbales, un plan de travail sera dédié à la description de ces interactions en parallèle d'un autre qui sera centré, lui, sur la partie graphique de l'interface. Le tout permettant de mettre en musique et en forme le story board de l'application.

Avez-vous déjà des références clients à partager autour d'Adobe XD dans le vocal ?

Parmi les premiers utilisateurs d'Adobe XD sur ce terrain, on peut évoquer les agences digitales Deloitte Digital et Perficient Digital.

Qu'en est-il de la feuille de route "vocale" d'Adobe XD ?

Le principal chantier porte sur l'introduction à Adobe XD du son non-vocal. L'objectif est d'abord de faciliter l'intégration d'effets et d'habillages sonores aux interfaces vocales. Ce peut être le cas par exemple de notifications audio indiquant qu'une transaction a bien été réalisée, qu'un message est bien arrivé... Cette démarche peut être également pertinente pour enrichir les interfaces graphiques. Globalement, elle permet de créer une identité sonore applicable quelle que soit la langue ou l'application utilisée.

Comment intégrez-vous le natural language processing dans Adobe XD ?

Nous avons recours à des technologies partenaires pour cet aspect que nous considérons comme une commodité. Notre enjeu est avant tout de nous concentrer sur les problématiques de design vocal au sein de l'expérience digitale. Notre brique de génération de langage naturel repose sur le service cloud AWS Polly d'Amazon. Ce dernier s'est d'ailleurs récemment enrichi d'une approche de Neural text-to-speech qui permet de rendre la synthèse vocale plus humaine.

Envisagez-vous d'enrichir Adobe XD en vous appuyant sur Sensei, la plateforme d'IA d'Adobe ?

Utiliser Sensei dans ce type d'outil laisse entrevoir de nombreuses opportunités dans l'automatisation des tâches du designer en vue de le faire gagner en productivité. En termes de fonctionnalités vocales, on peut penser par exemple au process de validation d'un design qui peut tout à fait se faire via commandes vocales.

Comment anticipez-vous l'évolution des applications vocales dans les prochaines années ?

On peut anticiper une extension du procédé à de nouveaux domaines. Au-delà des smartphones, des assistants vocaux et de la domotique, les commandes vocales devraient s'étendre à beaucoup d'autres objets connectés. Les interactions vocales vont par ailleurs devenir cross-device, et s'adapter selon les contextes d'expérience digitale. Que je passe par ma montre, mon téléphone, que j'utilise une enceinte digitale, le service ou l'entreprise avec lesquels je communique devrait adopter un même environnement sonore avec les mêmes codes et la même expérience audio. L'identité sonore des marques va devenir un élément clé des politiques marketing, au même titre que les identités graphiques. Et même si le style de la voix, son genre, sa personnalité, son aspect plus ou moins formel, dépendent plutôt de l'IA, il est clair que les créatifs auront également leur mot à dire sur le sujet.

Mark Webster est directeur produit chez Adobe. En charge d'Adobe XD, outil star du groupe américain sur le terrain de la conception et du design et d'interfaces utilisateur, il gère la feuille de route de l'éditeur sur le front du design d'expérience vocale. ark Webster est un serial entrepreneur. Après avoir participé à la création de plusieurs start-up, notamment la place de marché SideTour acquise par Groupon en 2015, il s'est illustré en lançant Sayspring en 2016. Editant un outil de création d'interfaces vocales pour Alexa et Google Assistant, la société est acquise par Adobe en 2018. Depuis, Mark Webster a rejoint le groupe de San José.