Les assistants intelligents, de plus en plus proches de l'interaction humaine grâce à la détection du regard

Les machines ont désormais la capacité de faire fonctionner geste et voix ensemble, grâce à la reconnaissance d’image et au deep learning. Capacités qui nous amènent dans l’ère des assistants résolument multimodaux.

Le pointage de sujets et d’objets, par le langage, le regard, des gestes ou les yeux, est une aptitude très humaine. Toutefois aujourd’hui, des assistants intelligents multimodaux, comme en voiture, intègrent ces formes de pointage à leur communication, afin de rendre les interactions plus humaines que jamais.
Le recours aux technologies de reconnaissance d’image et au deep learning, pour perfectionner ces assistants intelligents, promet de révolutionner les véhicules autonomes du futur.

Plus nous en apprenons sur le monde biologique qui nous entoure, plus la liste des aptitudes uniquement humaines se réduit, et ce constat existait avant même que les ordinateurs aient commencé à jouer aux échecs et au jeu de Go. Compter ? Les oiseaux savent compter jusqu’à douze. Utiliser des outils ? Les dauphins de Shark Bay, en Australie, utilisent des éponges pour chasser. Mais les facultés humaines de pointage sont étonnamment spécifiques : même si pointer nous semble très naturel et aisé, il se trouve que nos plus proches cousins que sont les chimpanzés ne parviennent pas à maîtriser les formes de pointage les plus élémentaires. Alors comment espérer que des machines le comprennent ?

Trois formes de pointage

En 1934, le linguiste et psychologue Karl Bühler a distingué trois formes de pointage, toutes connectées au langage : la première dite « ad oculos », c’est-à-dire dans le champ de vision, concerne le pointage centré sur le locuteur (« ici »), également accessible à celui qui écoute. Les doigts peuvent être utiles dans ce champ mais le langage nous apporte en plus des termes complémentaires spécifiques (« ici » plutôt que « là », « ceci » plutôt que « cela », « gauche » plutôt que « droite », « devant » et « derrière » etc.). La seconde forme de pointage émane du souvenir ou de l’imaginaire, et est formulée par le langage (« Quand vous quittez le Metropolitan Museum, Central Park est derrière vous et le Musée Guggenheim est sur votre gauche. Retrouvons-nous devant »). La troisième forme de pointage se situe dans le langage : le discours s’inscrivant dans le temps, nous devons souvent faire référence à quelque chose que nous avons dit précédemment ou encore pointer quelque chose que nous dirons ultérieurement.

Le premier mode de pointage d’éléments, aux alentours visibles, est désormais accessible pour les assistants intelligents actuels.

Les premiers assistants automobiles à prendre en charge le « pointage »

Au CES de Las Vegas, on a pu observer comment les conducteurs peuvent aujourd’hui pointer des bâtiments en dehors de la voiture, alors qu’ils sont au volant, et poser des questions au véhicule telles que « Quelles sont les heures d’ouverture de ce magasin ? » Le « pointage » n’a toutefois pas besoin de se faire via le doigt. Désormais, on peut se contenter de regarder l’objet en question, grâce à une technologie de détection du regard, intégrée au véhicule, qui se base sur une caméra de suivi des yeux. La technologie imite le comportement humain, car les humains sont très forts pour deviner ce que quelqu’un regarde juste en observant ses yeux.

Les biologistes suggèrent que la forme distinctive et l’apparence de l’œil humain (un iris foncé entouré de blanc contrastant) n’ont rien d’accidentelles, mais que c’est le produit de l’évolution facilitant la détection du regard. Les artistes l’exploitent depuis des siècles : en quelques traits de pinceau, ils font en sorte que les personnages qu’ils peignent regardent celui qui observe le tableau. Regardez la Joconde, qui est exposée au Louvre, et observez comment le sens du regard des personnages les fait pointer les uns vers les autres et oriente notre vue.

Interaction multimodale : quand le discours, le geste et la main travaillent ensemble

Les machines ont aussi la capacité de faire fonctionner geste et voix ensemble, grâce à la reconnaissance d’image et au deep learning. Capacités qui nous amènent dans l’ère des assistants résolument multimodaux. Il faut se souvenir que « multimodal » ne signifie pas avoir le choix entre plusieurs modalités (taper OU énoncer OU écrire à la main sur une tablette pour entrer la destination dans votre système de navigation), mais que plusieurs modalités concourent à l’accomplissement d’une tâche. Par exemple, quand vous pointez quelque chose à proximité (modalité 1) et que vous dites, « dis m’en plus à ce sujet » (modalité 2), les deux modalités sont nécessaires pour expliquer ce que la personne concernée souhaite accomplir.

Interaction multimodale : une fonctionnalité clé pour les véhicules autonomes de Niveaux 4 et 5 ?

S’il l’on comprend aisément qu’une telle possibilité séduise les automobilistes d’aujourd’hui, ça sera encore plus le cas à l’ère des véhicules autonomes. Certains se demandent ce que les automobilistes vont faire quand ils n’auront plus à piloter, ce que l’on prévoit avec l’arrivée des véhicules autonomes de Niveaux 4 et 5. Certaines études répondent « pas grand-chose ». Par exemple, une étude allemande de 2016 a interrogé des conducteurs, pour connaitre quels seraient les avantages spécifiques de conduire des voitures autonomes, et « … pouvoir profiter du paysage » est arrivé en tête des réponses. Il n’est pas difficile d’imaginer un avenir où la détection du regard et des gestes serait combinée au mode « just talk » de reconnaissance vocale ; où l’on pourrait dire « qu’est-ce que ce bâtiment ? » sans devoir appuyer sur un bouton ni prononcer un mot-clé au préalable. Dans ce futur pas si lointain, les utilisateurs de véhicules autonomes obtiendraient exactement ce qu’ils veulent, quand ils le veulent. Et aux yeux des actuels utilisateurs de véritables systèmes multimodaux, les machines deviennent encore un peu plus similaires aux hommes.