Assistants vocaux : avenir ou phénomène éphémère ?

Lorsque les premières commandes vocales sont arrivées sur téléphone et sur PC, nous étions loin du monde dépeint dans des séries telles que Star Trek. Communiquer avec de tels dispositifs s’avérait souvent compliqué : l’utilisateur devait employer des formules peu naturelles en prononçant lentement et en laissant de longs blancs entre les mots. Et vous aviez intérêt à parler un langage châtié si vous vouliez avoir une chance d’être compris.

La plupart des téléphones comportent aujourd’hui des assistants vocaux – une plateforme considérable quand on sait que plus de 6 milliards de smartphones seront en circulation dans le monde à l’horizon 2021. Ces assistants se sont également invités chez nous récemment sous forme d’appareils à part entière tels que Google Home et Amazon Echo. Avec le développement de la reconnaissance vocale, du cloud computing et de l'apprentissage automatique, la technologie vocale a fait de gros progrès, et nos terminaux sont désormais capables d’effectuer des tâches simples sur simple demande (la plupart du temps).

Toutefois, malgré la sophistication et la polyvalence de cette technologie, il lui manque une véritable proposition de valeur pour attirer la clientèle traditionnelle. Elle doit trouver le moyen de séduire les utilisateurs occasionnels – l’avenir des assistants vocaux en dépend.

Utilisation personnelle

L’assistance vocale est une technologie conçue pour la maison. Qu’il s’agisse de configurer son minuteur de cuisson, de contrôler ses appareils multimédias ou même d’allumer et d’éteindre la lumière, les géants de la high-tech veulent mettre ces assistants au cœur de notre vie domestique. En d’autres termes, il s’agit de contrôler nos applis avec nos cordes vocales plutôt qu’avec nos doigts. Un bouleversement au potentiel indéniable à la maison : on peut ordonner à sa liseuse de tourner la page d’une recette tout en gardant les mains libres pour cuisiner, changer le volume de sa chaîne hi-fi depuis n’importe quelle pièce, etc.

Toutefois, c’est une chose de formuler des commandes à voix haute dans l’intimité de chez soi, c’en est une autre de le faire en public. Souvenez-vous du manque de commodité des casques Bluetooth. Pour le moment, ce sont essentiellement les early-adopters (disposés à remettre en cause la perception du public) qui achètent ces appareils tels que Google Home et Amazon Echo, dont le prix dépasse les 100 euros. De plus, bien qu’il soit possible d’interagir vocalement avec certains services numériques, le résultat n’est pas à la hauteur. Prenons l’exemple de Spotify : c’est formidable de prononcer le nom d’une chanson pour la choisir, mais comment fait-on si on ne se souvient plus du titre ? On est coincé. Sur un écran tactile, il suffit de défiler jusqu’à ce qu’on trouve ce qu’on cherche. Un détail, certes, mais très important pour la plupart des gens. Cette absence de fonctionnalité est un point critique pour de nombreux utilisateurs.

Il est fort probable que nous assistions à une adoption lente et régulière des assistants vocaux plutôt qu’à un engouement généralisé. Prenons le cas de l’Apple Watch et de l’iPhone : la commande vocale entraînerait une rupture technologique si elle palliait au problème de l’écran tactile ; or, l’écran tactile n’est pas un problème. La reconnaissance vocale n’offre qu’une technologie alternative et pas forcément plus performante. Les early-adopters serviront de cobayes pour les premiers usages, et lorsque les prix chuteront, la base client s’élargira peu à peu. Les assistants vocaux offriront des possibilités d’interaction commodes dans des foyers de plus en plus connectés.

Sur le lieu de travail

Les assistants vocaux tels que Siri et Cortana ont un potentiel de développement dans le milieu professionnel. Par exemple, plutôt que de taper à toute vitesse sur son clavier ou son smartphone, quelques mots prononcés suffiraient à ouvrir une app, configurer une invitation à un rendez-vous ou participer à une conférence. La technologie qui permettrait de généraliser ce service existe déjà, mais elle n’est pas encore développée à grande échelle. Parce que la plupart des gens ne travaillent pas dans une pièce isolée, et l’idée que notre journée de travail soit connue de tous est un facteur rebutant. Les technologies développées en négligeant la réalité du terrain nuisent à l’innovation. Bien que les assistants vocaux aient clairement le potentiel de devenir un service sophistiqué – révolutionnant même la manière dont nous communiquons – les environnements de travail ne sont pas près de changer.

Fort de ce constat, il reste un lieu potentiellement idéal qui a peut-être été négligé : l’automobile. La voiture est au cœur de l’activité de nombreux conducteurs, qui dictent des e-mails et participent à des visioconférences lors de leurs longs trajets pour se rendre au bureau. Les assistants vocaux peuvent devenir les assistants personnels des travailleurs. L’essentiel est de faire converger le cas d’utilisation, le contexte et l’environnement.

Dis Siri, tu veux faire quoi plus tard ?

Les assistants vocaux sont pénalisés par certains handicaps. Ils peuvent s’avérer utiles dans le confort de notre foyer, mais ne sont pas à la hauteur dans les autres contextes. De nombreuses tâches basiques sur nos smartphones passent par la navigation : il est tellement plus facile de choisir une chanson lorsque l’on voit l’écran. La voix n’offre pas ce niveau d’intuitivité, et il est peu probable qu’elle remplace l’écran tactile pour toute une série d’activités. L’interaction vocale ne disparaîtra pas, mais elle viendra compléter nos écrans à défaut de les remplacer. Le succès des assistants vocaux passera nécessairement par un marketing efficace des meilleurs cas d’utilisation.