« Ok Google » - Pourquoi la recherche vocale ne révolutionnera pas le SEO et les usages sur le web à court terme

La recherche vocale n'est plus du domaine de la science-fiction. Sorti en 2012, Google Now permet d'interroger Google oralement depuis son smartphone. Simple gadget ou révolution des usages à venir ?

Google mène actuellement une campagne de publicité massive pour promouvoir Google Now, son service d’assistant personnel intelligent disponible sur iOS et Android. L’application permet de piloter son smartphone et de réaliser des recherches sur internet directement à l’aide de la voix en effectuant des requêtes vocales.
Parallèlement à cela, dans Interstellar (film de science-fiction réalisé par Christopher Nolan et sorti début novembre en France) des astronautes sont secondés dans leur mission par des droïdes rectangulaires doués d’une intelligence artificielle très élaborée. Ces machines peuvent dialoguer avec les êtres humains, user de l’humour et les assister sur un simple ordre vocal dans la réalisation d’actions spécifiques telles que le pilotage d’un vaisseau spatial ou des analyses de données scientifiques.
Avec le lancement de Google Now, sommes-nous en train de voir la réalité rattraper la fiction ?
Nos interfaces de communication traditionnelles avec les machines que sont claviers et souris vont-elles disparaître à court terme ? La recherche vocale va-t-elle supplanter l’usage des mots clés dans les mois à venir ? La réponse est à mon sens négative et voici pourquoi.

1. La pertinence des réponses fournies par Google sur les requêtes informationnelles et transactionnelles ne sera jamais totalement efficiente

Si vous interrogez vocalement Google pour lui demander l’âge ou l’année de naissance d’une personnalité publique, il va vous répondre directement en allant puiser dans son Knowledge Graph.
Dans ce cas précis une interaction mimant un dialogue avec la machine vous apportera directement la réponse à la question que vous posez.
Mais interrogez Google sur le « meilleur restaurant de fruits de mer à Besançon ». Que va-t-il vous donner ? Une liste de résultats triés en fonction de ses critères de classement, c’est à dire de critères purement algorithmiques basés sur des éléments de contexte techniques et sémantiques, mixés à des usages et à des avis non modérés. Face à ce type de requête, Google ne peut qu’agglomérer les informations et les présenter sous forme synthétique sans apporter de jugement subjectif (et encore moins objectif). Il ne sait pas répondre à la question, il peut uniquement apporter des éléments d’aide à la décision.
De même en ce qui concerne les requêtes transactionnelles. Demandez à Google de vous « acheter une place d’opéra pour les ballets russes », il sera incapable de déterminer sur quel site l’action pourra être finalisée de manière efficiente. Il ne répondra pas à cette requête mais fournira une liste qui correspond à des sites qui pourrait y répondre, éventuellement. La réponse ne se suffit donc pas à elle même.

2. Même si Google peut nous proposer des recettes de Cupcake à partir d’une requête vocale, l’emploi de nos mains est incontournable pour finaliser notre action de recherche

Suite à notre requête pour les ballets russes, Google liste les sites qui pourraient nous permettre d’acheter notre place d’opéra. Comment allons-nous faire le tri dans les sites proposés et comment allons nous procéder à la réservation ? A l’aide de notre clavier et de notre souris ou de nos doigts sur un smartphone/une tablette.
Une rupture est donc nécessaire pour finaliser l’action en changeant de moyen de communication avec la machine. Ainsi la promesse de nous libérer du clavier et de la souris n’est pas tenue jusqu’au bout du processus. Qu’elle est alors la valeur ajoutée de la recherche vocale ? 
Permet-elle de gagner du temps ? Non, car cela aurait été tout aussi rapide en utilisant notre clavier. L’emploi de la parole peut même allonger le temps nécessaire à l’obtention de notre réponse : si la reconnaissance vocale n’interprète pas correctement notre demande, l’application peut nous forcer à la reformuler. 
Permet-elle de gagner en pertinence ? Non, car la reconnaissance vocale est par définition un système qui cherche à reconnaître des mots clés dans les phrases que nous formulons en isolant les mots de liaison.  Dans la requête « qu’elle est la discothèque la plus proche ? », le moteur retiendra les mots « discothèque » et « proche ». Le fait de fournir directement les mots clés à la machine à l’aide d’un clavier améliore donc la compréhension, même en présence de fautes d’orthographe (qui sont thésaurisées et corrigées à la volée), car les mots de liaison ne sont pas présents.

N’oublions pas que Google ne comprend pas le sens des phrases qu’il analyse. Il n’en est pour le moment pas capable, n’étant doté d’aucune forme d’intelligence. L’algorithme analyse de façon mécanique. Pour reprendre une citation de Neil Gaiman, auteur et célèbre bloggeur américain : si vous avez une question, « Google peut vous donner 100 000 réponses. Un être humain érudit vous donnera la bonne réponse. »
La seule valeur ajoutée de la recherche vocale réside dans le fait de pouvoir se passer du clavier dans certains cas de figures spécifiques pour lesquels nos mains ne sont pas disponibles (au volant d’un véhicule par exemple). Mais ces situations ne sont pas représentatives de l’usage courant d’un moteur de recherche pour une action de recherche approfondie.

3. Finalement, trouvez-vous « normal » de parler à votre smartphone ou à votre montre ?

Combien de personnes de votre entourage utilisent « Siri » au quotidien ? Sorti depuis plus de 3 ans, l’assistant personnel d’Apple n’a pas réussi à réconcilier la science-fiction avec la réalité en devenant le premier « Hal 9 000» de l’histoire (l’ordinateur doté d'intelligence artificielle et d’émotion humaine du film de Stanley Kubrick - 2001, l’Odyssées de l'espace). Une étude menée en octobre 2013 par Intelligent Voice aux Etats-Unis révèle que 85 % des utilisateurs d’iPhone ne l’on jamais testé, malgré l’abattage publicitaire réalisé par Apple à l’époque de sa sortie.
Le jour ou nous pourrons sous-traiter la réalisation d’une tache intellectuelle complexe à une machine, la recherche vocale s’intègrera naturellement dans nos usages. Lorsqu’il sera par exemple envisageable de demander oralement à son ordinateur d’« ouvrir tel fichier, de classer la colonne A par ordre alphabétique et d’extraire toutes les lignes qui commencent par la lettre P à R dans un autre fichier. ».
Pour que cette évolution passe dans les comportements il sera primordial que nous puissions faire confiance aux machines quant à la qualité de l’exécution, comme c’est le cas dans le film Interstellar par exemple.
D’ici là, les claviers tactiles ou physiques et les souris ont encore une longue vie devant eux. La recherche par mots clés n’est pas prête d’être remplacée par une autre forme de communication plus proche de notre usage naturel du langage.