Comment les machines reconnaissent-elles les émotions humaines ? A quoi cela sert-il ?

Les machines sont-elles capable de reconnaître les émotions humaines ? Comment l'intelligence artificielle et les réseaux de neurones fonctionnent-ils ? Pourquoi devriez-vous vous y intéresser ?

Les machines sont-elles douées d’émotions ?

Nous savons tous qu’une des grandes différences entre l’Homme et la machine est que seul l’Homme est doué d’émotions. Une machine n’est à priori qu’un ensemble de 0 et de 1, programmée par des humains pour exécuter différentes tâches allant de la gestion des feux de signalisations en passant par des calculs mathématiques, des jeux vidéos jusqu’à de l’intelligence dite artificielle permettant de battre les meilleurs humains de la planète aux échecs (1951) ou encore plus récemment au jeu de Go (2016).

Cette accélération fulgurante de l’intelligence artificielle (IA) donne naissance à de nouveaux mots clés en vogue tels que #deepLearning, #machineLearning, #IA, ou encore #réseaux_de_neurones.

Les avancées technologiques de ces réseaux de neurones sont incroyables ces 5 dernières années tant sur le plan mathématique que sur le plan informatique et ils permettent d’adresser des problèmes jusqu’alors hors de portée des machines, ou nécessitant des temps de traitement exorbitants (plusieurs semaines, voir plusieurs mois).

C’est ainsi que l’IA permet désormais aux machines d’identifier les émotions des êtres humains. Elles ne ressentent donc pas (encore) d’émotions comme nous les Hommes, mais elles sont capables de comprendre quel est notre état émotionnel à partir d’images ou de vidéos.

Mais alors, comment font-elles ?

Comme les êtres humains, elles utilisent notamment le pouvoir des micro-expressions sur les visages d’êtres humains.

Le pouvoir des micro-expressions universelles des visages humains

Une micro-expression est un mouvement très rapide (de l’ordre du ¼ de secondes) que l’être humain ne contrôle pas. Ce micromouvement fait intervenir un ou plusieurs muscles du visage reliés directement au cerveau. Cela a été le sujet d’études de nombreux scientifiques, notamment de Paul Ekman.

Il a classifié en 1978 les différents muscles du visage et a réussi à déterminer que tout être humain sur la planète exprime 7 émotions de base de la même façon, quelque soit son origine ou sa culture : la joie, la tristesse, la surprise, la peur, la colère, le dégoût et le mépris.

Nous, les êtres humains, sommes entraînés depuis notre plus jeune âge à voir et comprendre ces expressions sur le visage des autres et agir en conséquence.

Par exemple, lors d’un voyage à l’étranger, même si vous ne parlez pas la langue du pays, vous comprendrez instinctivement qu’il vaut mieux ne pas approcher la personne de gauche ou rester à bonne distance. En revanche, vous pourrez tenter de poser une question à la personne de droite sans prendre de risque.

© haalia.ai

D'accord, les machines utilisent les micro-expressions et s’inspire de la théorie de Ekman à grands coups d’IA. Mais ça n’explique pas comment cela fonctionne !

Pour cela les machines exploitent des réseaux de neurones convolutifs utilisant les fonctions mathématiques telles que Leaky Relu et déduisent vos émotions depuis une image ou une vidéo.

Et si je ne suis pas docteur en mathématique et informatique, ni expert en neuroscience, est-ce que je peux comprendre comment les machines fonctionnent ?

Ne vous inquiétez pas, dans moins de 5 minutes après avoir lu les prochains paragraphes, vous devriez être en mesure de répondre à cette question.

Pour cela, prenons un exemple.

Quelle est l’émotion principale que cet homme exprime ?

Prenons les 4 images suivantes issues d’une vidéo où un être humain exprime une émotion forte. Il s’agit des 30 premiers dixièmes de secondes de la naissance de cette émotion. En tant qu’être humain, vous devriez être capable de deviner quelle est l’émotion principale ressentie n’est-ce pas ?

© haalia.ai

Si vous observez les 2 images de gauche, cet homme est-il heureux, sur le point d’avoir un fou rire ?

Si vous observez maintenant les 2 images de droite, cet homme est-il triste, sur le point d’éclater en sanglot ? Ou est-il en colère, sur le point de crier ?

Vous êtes humains avec des neurones biologiques et cela n’est pourtant pas si évident n’est-ce pas ?

Voyons comment la machine se débrouille en utilisant un réseau de neurones, donc son intelligence artificielle, et profitons-en pour expliquer son fonctionnement de façon simple. Vous pouvez faire le test avec vos enfants, à partir de 10 ans ils devraient comprendre.

Qu’est-ce qu’un réseau de neurone ?

Ceci est un neurone. Une information lui est fourni via la flèche de gauche. Des calculs mathématiques analysent l’information et un résultat en ressort via la flèche de droite.

Ceci est un réseau de 6 neurones. Chacun récupère une information, la traite et envoie un résultat. Ils sont tous reliés entre eux, comme pourrait l’être nos neurones biologiques d’humains à la différence près qu’ici il s’agit de 0 et de 1 informatiques.

exemple d'un réseau de neurones utilisé par Haalia  www.haalia.ai ©Haalia

Voici l’exemple d’un réseau de neurones composés de plusieurs "paquets" de neurones organisés en colonnes que l’on appelle "hidden layers".

Chaque colonne s’occupe de traiter une information et la passe à la colonne de droite jusqu’à arriver à un résultat final.

Prenons l’exemple de l’image N°2 pour illustrer le fonctionnement étape par étape de la machine au travers de ce réseau de neurones.

La 1ère étape consiste à donner à la machine l’image (la 1ère flèche de gauche).

Le 1er neurone s’occupe de convertir cette image en tableaux de nombres représentant la quantité de rouge, vert et bleu sur chaque pixel de l’image. Pour rappel, nos écrans d’ordinateur (ou de télévision) sont composés de nombreux points (les pixels), eux même composés d’une quantité de rouge, vert et bleu mélangés donnant la couleur finale à ce point.

Ces tableaux de chiffres sont donc envoyés à la 2ème colonne de neurones dont l’objectif est d’identifier les visages sur l’image.

La 3ème étape est de transmettre le visage à la 3ème colonne de neurones, chargés de détecter des points stratégiques sur le visage. La plupart des réseaux de neurones identifient 68 ou 105 points.

La 4ème étape consiste à identifier les parties du visage telles que la mâchoire, la bouche, les yeux, les sourcils.

La 5ème étape s’occupe d’identifier la quantité d’émotions correspondant à chaque partie du visage. Une bouche en forme de sourire donnera une information liée au bonheur. Des sourcils relevés seront associés à une dose de surprise, etc.

La machine en déduira enfin que l’image N°2 contient un visage humain associé à 65% de bonheur et 31% de colère. Selon la machine, sur cette image cet homme est proche d’un fou rire et exprime donc principalement de la joie.

Afin d’être pertinente dans son analyse, la machine analysera une succession d’images issues d’une vidéo, comme nous le ferions en tant qu’être humain lors d’un dialogue avec un autre être humain vivant, donc non immobile.

Revenons à notre exemple et voyons ce que la machine déduit en se basant sur les 4 images.

Quel est l’émotion principale de cet homme selon la machine ?

Comme vu précédemment, la machine va procéder en 4 étapes en suivant chaque colonne de neurones artificiels.

Elle va donc d’abord isoler les visages sur chacune de ces 4 images.

© haalia.ai

Puis, la machine va identifier les 68 points sur chaque visage et en déduire où se situent chaque partie du visage (ici nous regroupons les étapes 2 et 3).

© haalia.ai

Enfin, la machine va identifier la quantité d’émotions pour chacune de ces images.

© haalia.ai

Elle va en faire une moyenne globale et en déduire l’émotion principale ressentie par cet être humain.

Selon la machine cet homme est triste à 66%.

En tant qu’être humain, vous avez probablement effectué la même déduction (peut-être pas le pourcentage).

Si vous avez lu jusqu’ici, vous êtes désormais capable d’expliquer brièvement comment une machine peut déduire nos émotions. Ajoutez-y quelques mots savants tels que réseaux de neurones convolutifs ou leaky Relu et vous passerez pour un savant quelques minutes.

Mais une question vous taraude probablement : à quoi cela sert ? Que peut faire une machine d’une telle information ?

Pourquoi les machines devraient se soucier des émotions des êtres humains ?

En attendant que les machines puissent éventuellement un jour ressentir une émotion, voir les exprimer comme un être humain, ne serait-il pas formidable qu’elles puissent nous comprendre ? Qu’elles puissent éviter de nous envoyer un rappel vocal du type "n’oubliez pas de lire une histoire à vos enfants ce soir" lorsque nous sommes en voyage d’affaire loin de ces derniers ou bloqué à l’étranger pour cause de Covid-19, loin de nos proches ?

Si les machines pouvaient comprendre la tristesse ressentie le soir dans ce genre de situation, peut-être pourraient-elles nous proposer d’organiser une visio-conférence, de les appeler au téléphone ou de visionner un album photos ?

Dans le domaine de l’entreprise, cela aurait de nombreuses applications utiles à l’homme. Dans le secteur de la santé, la machine pourrait venir en aide aux personnes atteintes d’autisme et leur permettre de mieux comprendre les autres êtres humains.

Dans le secteur de la publicité, la machine pourrait analyser les émotions des utilisateurs et indiquer aux marques si le consommateur est neutre ou plutôt positif face à l’affichage d’un produit d’un service ou si le message utilisé semble impactant.

Dans le domaine du cinéma, cela permettrait d’améliorer la qualité des films, de s’assurer que cette superbe blague est vraiment drôle ou que ce passage triste l’est vraiment.

Les applications sont infinies.

Cependant, en tant qu’expert en mathématiques, informatiques, neurosciences et langages non verbales, je pense qu’utiliser l’IA en se basant uniquement sur les micro-expressions faciales serait source d’erreurs et de biais. 

Les limites des micro-expressions

En tant qu’êtres humains, le visage est une des parties les plus importantes pour comprendre ce que nos semblables ressentent, mais c’est loin d’être la seule.

Nous analysons chaque seconde sans même nous en rendre compte si notre interlocuteur nous regarde ou tend à fuir notre regard. Nous analysons également ses gestes, sa rapidité d’élocution ou encore la tonalité de sa voix. La distance à laquelle notre interlocuteur se situe nous indique le niveau de relation que nous entretenons avec lui (proche pour un ami, loin pour un inconnu ou au travail).

La machine ne doit donc pas se limiter au simple critère d’expression faciale et doit construire une intelligence capable d’analyser de nombreux autres critères.

L’alliance gagnante Hommes + machines

Quid de l’utilisation de ces intelligences artificielles et de ces émotions dans le cadre professionnel ?

La seule analyse du langage non verbal peut-elle suffire à déduire une émotion et quantifier son intensité ?

En tant qu’expert, ma réponse est sans détour : non.

Cela dépend notamment du contexte dans lequel nous, êtres humains, interagissons.

Prenons l’exemple d’une franche rigolade entre amis. Elle sera banale et acceptable. En revanche si cette même rigolade se produit lors d’une réunion professionnelle sérieuse où un client vous exprime son mécontentement, elle sera très mal venue et les conséquences en seront désastreuses alors que pour la machine vous ne faisiez qu’exprimer une forte dose de joie dans les 2 situations.

Pour une utilisation professionnelle, les machines auront encore besoin des êtres humains pour les aider à tempérer leurs analyses, notamment selon le lieu et le contexte où les informations seront collectées, ainsi que de nombreux autres critères difficilement automatisable.

Si ce partenariat homme-machine est utilisé à bon escient, cela permettra de décupler les capacités humaines et faciliter les échanges entre femmes et hommes, entreprises et clients, gouvernements et citoyens.

Je suis convaincu qu’un tel partenariat homme/machine, axant son analyse sur les émotions humaines permettra d’améliorer les échanges entre êtres humains et améliorer la pertinence des relations entre entreprises et clients.