Après les drones en 2013, l'impression 3D en 2014, les montres connectées en 2015, la réalité virtuelle en 2016, la planète tech semble avoir trouvé un nouveau concept sur lequel s'enthousiasmer en 2017: les interfaces vocales.

En effet, qu'il s'agisse de Cortana chez Microsoft, Assistant chez Google, Siri chez Apple ou Alexa chez Amazon, tous les "GAFAs" investissent massivement dans de nouvelles interfaces de dialogue avec les internautes, combinant des technologies d'intelligence artificielle et de compréhension du langage.

Ces derniers mois, Apple a ainsi porté Siri sur Mac OS, Google a dévoilé "Home", une enceinte intelligente embarquant son assistant vocal. Mais c'est surtout Amazon qui est désormais sous le feu des projecteurs, grâce au succès de son enceinte Echo, vendue à près de 5 millions d'exemplaires aux Etats-Unis.

A l'occasion du Consumer Electronic Show (CES) qui s'est tenu la semaine dernière à Las Vegas, Amazon a d'ailleurs pu dévoiler tout un écosystème de partenaires qui embarquaient sa technologie avec un boitier signé Mattel, capable de raconter des histoires aux enfants, une enceinte Lenovo, offrant un son de meilleure qualité que Echo, le robot domestique Hub de LG, un autoradio chez Ford et même une machine à laver et un four Whirlpool entièrement contrôlables à la voix.

"La commande vocale des appareils équipés du système Alexa d’Amazon permet de simplifier et d’améliorer le quotidien des utilisateurs. Les familles peuvent désormais ajuster la température de leur four ou modifier leur cycle de lavage rien qu’avec la voix. À mesure que la demande pour un écosystème intelligent se développe, les consommateurs recherchent de nouvelles façons d'interagir avec leurs appareils, que ce soit sur le produit directement ou de façon digitale grâce à une application ou par commande vocale." explique Brett Dibkey, vice-président de la division opérationnelle chez Whirlpool Corporation.

Une tendance confirmée par Shawn DuBravac, directeur de recherche au CTA, l'organisation à l'origine du CES de Las Vegas. "Peu à peu, les interfaces informatiques traditionnelles - (écran, clavier, etc.) sont remplacées par des appareils répondant à la voix, et sachant dialoguer avec l’usager en langage naturel. Amazon a pris de l’avance avec son assistant numérique domestique Alexa, maintenant suivi par Google Home. 10 millions de ces "valets digitaux" parlants auront été vendus dans les foyers américains et européens fin 2017. Et ils sauront faire de plus en plus de choses. Mais surtout, ces technologies de commande vocale sont à présent mises à la disposition de tous les développeurs de la planète, qui les intègrent à nos objets familiers : lampe, porte, radio, voiture, aspirateur…" explique-t-il.

Du serveur vocal aux agents conversationnels

"Même si les jeunes utilisent davantage les différentes formes de messagerie écrite que le téléphone, dans une journée ils parlent plus qu’ils n’écrivent) . Le chatbot écrit est une étape intermédiaire vers le chatbot audio, un entraînement. La voix est beaucoup plus riche que le texte. Elle indique l’humeur de la personne, ses émotions, son style et même son identité par l’emprunte vocale. Les GAFAs s’adaptent à ce qui nous est le plus naturel. Et puis, il faut le dire, c’est aussi un joli terrain de jeu pour les laboratoires d’intelligence artificielle qui peuvent enfin prendre le grand public à témoin de leurs prouesses." estime Sébastien de la Bastie, Directeur Général d'Invoxia, un spécialiste des équipements audio qui a bénéficié d'un investissement de la part d'Amazon.

Parler à des machines n'est toutefois pas une nouveauté puisque les consommateurs expérimentent, avec plus ou moins de succès, des serveurs vocaux interactifs depuis plus d'une vingtaine d'années. Mais les technologies proposées désormais par les GAFAs sont beaucoup plus sophistiquées.

"Les serveurs vocaux étaient très basiques et proposaient, en fonction des tonalité des touches, d'accéder à quelques informations pré-enregistrées. Il y a eu quelques améliorations comme l'interactivité ou la reconnaissance d'un mot, mais rien à voir avec la révolution actuelle. Les nouvelles interfaces vocales s'appuient sur des technologies comme le Speech to Text (STT) ou le Natural Language Processing (NLP) pour comprendre des mots mais surtout le contexte de ces mots dans des phrases. L'autre révolution, c'est le machine learning, qui va permettre au système d'apprendre, de s'auto-corriger et de gagner en expérience, au contact des utilisateurs. Aujourd'hui toutes ces technologies sont proposées très simplement et gratuitement, via le Cloud, par les grands noms de l'informatique." explique Nicolas Benoist, directeur technique de UserADgents, une société spécialisée dans la conception d'interfaces mobiles et d'objets connectés.

Une nouvelle opportunité pour les marques

A l'instar des GAFAs, qui multiplient les expérimentations avec de nouvelles interfaces homme-machine, les marques entendent tirer profit de toutes les possibilités offertes par ces nouvelles interfaces pour offrir la meilleure expérience à leurs utilisateurs.

"Avec notre équipe spécialisée dans l'intelligence artificielle, nous menons plusieurs tests dont celui d'Amazon Echo car nous pensons que la voix peut avoir un véritable impact business, notamment auprès de personnes âgées pour qui un smartphone reste avant tout un téléphone." indique Stéphane Delbeque, Directeur de l'expertise digitale chez AXA Group.

"Nous cherchons à proposer une expérience utilisateur plus simple, plus fluide et plus personnalisée. Et cela peut passer par le langage naturel, à l'oral ou à l'écrit, dans nos applications ou sur Messenger. Notre vieux serveur vocal n'avait qu'une trentaine de branches alors que désormais, c'est une infinité de réponses potentielles que nous pouvons fournir à nos clients. En parallèle, nous avons réalisé un POC (Proof of Concept) sur Amazon Echo, ce qui nous permet de délinéariser le parcours client. En effet, une conversation qui débute avec une question sur la météo peut très bien aboutir à la vente d'un billet de train pour partir au soleil." ajoute Benoit Bouffart, Directeur produits, expérience client et innovation de Voyages-SNCF.com dont la société a développé sa propre brique NLP avec un champs lexical propre à l'univers du tourisme.

Qu'il s'agisse d'Amazon (Alexa), de Google (API.ai), d'Apple (Siri), de Microsoft (Azure) mais également d'IBM, champion de l'intelligence artificielle avec Watson, ou de Facebook, qui vient de racheter la jeune pousse française Wit.ai, les interfaces vocales semblent être devenues en quelques mois une priorité stratégique pour les grands noms de la Silicon Valley.

Après le clic ou le touch, la voix est-elle l'avenir des smartphones et des objets connectés? Comment se feront le référencement et la découverte de ces nouveaux services vocaux ? L'identification des consommateurs se fera t-elle par signature vocale ? Et surtout quels seront les business models et les modes d'interactions avec les marques ? Autant de questions qui témoignent du dynamisme de l'écosystème mobile et que la Mobile Marketing Association France abordera au cours des prochains mois