Assistants vocaux : l’analyse de données peut-elle être contrôlée par la voix ?

L’idéal serait d’avoir une conversation itérative avec les données grâce à la voix. L’exploration est le chemin le plus pertinent pour une bonne analyse de données.

Aujourd’hui, tous les constructeurs de smartphones, ou presque, proposent des assistants vocaux. Après Apple avec Siri, Amazon avec Alexa au sein du boitier Echo, Google avec Assistant que l’on interpelle par un simple « Ok Google », et Microsoft avec Cortana, c’était au tour de Samsung de présenter récemment son assistant vocal nommé Bixby avec le lancement du Galaxy S8.

Nous communiquons avec eux très simplement, en demandant par exemple à Alexa d’allumer la radio. Pas de bouton, pas de balayage de la bande FM : il est désormais possible d’écouter la station de son choix en la prononçant oralement. En grandissant, nos enfants arriveront peut-être au point où ils n’imagineront même plus que l’on ait été obligé d’appuyer sur un bouton pour écouter de la musique.

Et si ces fonctionnalités d’assistances vocales pouvaient aussi nous aider à comprendre nos données ? Stephen Few, spécialiste de l’analyse visuelle des données (data sensemaking), a récemment écrit un article expliquant pourquoi la programmation neurolinguistique (PNL[1]) n’a pas d’avenir en tant qu’outil de saisie capable d’exploiter pleinement le sens des données. Effectivement la PNL n’a guère d’avenir, sauf pour répondre à des questions rudimentaires à propos des données, mais cette situation va être amenée à évoluer. Plus nous tardons à prendre certaines décisions, moins vite nous parviendrons à cet objectif.

Une discussion peut-elle faciliter l’exploration des données ?

Premièrement, il faut se rappeler de la cause d’exploration des données. En tant que personne, nous voulons obtenir des informations pertinentes le plus rapidement possible, tandis que les entreprises souhaitent démocratiser l’accès aux données. Notre objectif est de créer des interfaces aussi intuitives que possible avec les machines, afin que tout le monde puisse trouver les meilleures informations dans ses propres données, même sans disposer d’une formation approfondie.

Bien que les questions deviennent de plus en plus complexes, il faudra être en capacité de continuer à utiliser le langage naturel pour « naviguer » au fil des données jusqu’aux informations pointilleuses. Vidya Setlur, chercheuse en PNL, explique : « Il est rare qu’un unique graphique statique suffise pour répondre aux questions d’une personne. Un vaste ensemble de graphiques est créé et exploré pour répondre aux nouvelles questions posées. La capacité de tout système à répondre intelligemment à des questions itératives sans que l’utilisateur soit nécessairement un statisticien qualifié ou un expert en bases de données constitue un paramètre critique. »

Nous pouvons prendre pour exemple un jeu de données sur des manifestations sismiques. La question « Montrez-moi les principaux tremblements de terre qui ont frappé la France » constitue une première entrée, qui se traduira probablement par la génération d’une carte. « Et l’Île-de-France ? » est la suite logique du questionnement. Le défi de la PNL est de maintenir le contexte entre ces deux questions - et d’autres - tout en nous permettant de nous exprimer de façon naturelle en utilisant ce que les chercheurs en intelligence artificielle appellent la pragmatique du langage.

« Cette approche est pleine de promesses, car elle permet de maintenir le flux », explique Vidya. « Grâce au langage naturel, les utilisateurs ont la possibilité de poser des questions plus facilement qu’en les traduisant en commandes transmises via une interface graphique adaptée. »

Pour quelles raisons ne devrait-on pas permettre aux usagers de poser des questions complexes à leurs données en utilisant le langage ?

Les développements de la PNL seront en accord avec la technologie de reconnaissance vocale. Pour ma part, je dicte déjà la plupart de mes recherches Google et mes textos parce que cette technologie affiche les performances requises. Il est plus simple d’utiliser la voix que l’écriture via un clavier. Dès que la reconnaissance vocale sera suffisamment puissante pour que nous puissions converser avec des données, je serai le premier à débrancher ma souris et mon clavier.

Actuellement, nous passons beaucoup de temps à utiliser nos téléphones mobiles. Pensez à la façon dont nous interagissons avec un smartphone : pas de souris, un clavier peu pratique et des doigts imprécis. Cette problématique a été soulevée l’année dernière par Elon Musk lors de conférence Code de Recode : « Nous sommes limités par notre système d’entrée/sortie, surtout au niveau de la sortie. Votre niveau de sortie est extrêmement bas, surtout avec deux pouces qui tapotent comme ils peuvent sur le téléphone. Cette lenteur devient ridicule ». C’est pourquoi le travail ne manque vraiment pas dans le domaine de la synthèse vocale (TTS). À terme, c'est-à-dire quand le langage le permettra, il sera possible d’analyser des données de façon naturelle sur un téléphone.

Bien sûr, le travail à fournir est encore important. La plupart des assistants vocaux oublient chaque question dans la seconde qui suit, de sorte qu’il est difficile d’établir une réelle conversation. L’analyse des données par assistance vocale fonctionne uniquement avec des questions dites primaires. Mais rappelez-vous qu’il y a cinquante ans, personne n’imaginait qu’un ordinateur serait capable de battre un joueur d’échecs. Avantage supplémentaire, les machines parviennent également à surclasser les meilleurs joueurs de Go et ont même raflé la mise au poker, un jeu qui repose essentiellement sur le bluff et l’émotion, ainsi que sur la probabilité pure.

Le domaine de la robotique fournit d’autres exemples qui nous permettent de mesurer facilement le travail fourni jusqu’à présent. Les succès comme les échecs tiennent à peu de choses, et s’ils ont encore tendance à tomber facilement, parions que les robots parviendront à courir ou à marquer des buts dans un avenir relativement proche.

L’exploration est le chemin le plus pertinent pour une bonne analyse de données. Pour converser avec mes données, je suis encore obligé de passer par une souris, un clavier et une interface graphique. L’idéal serait d’avoir une conversation itérative avec les données grâce à la voix. Je suis convaincu que cela vaut le coup. Certaines des premières étapes de la reconnaissance vocale et de la PNL peuvent paraître grotesques. Pourtant, il faut continuer en ce sens afin de permettre à tous de poser des questions aussi diverses que complexes, sans qu’il soit nécessaire d’avoir une parfaite maîtrise des interfaces sophistiquées.

[1] en anglais Natural Language Processing — NLP. http://www.pnl-nlp.com