Quand la technologie permettra de "ressusciter" les personnes disparues

Les progrès en reconnaissance des formes, en images de synthèse, synthèse vocale et intelligence artificielle devraient permettre d’ici à 30 ans de faire "revivre" les personnes disparues. Voyons comment.

En préambule, voici d’abord une liste des critères qui définissent en bonne partie ce qui constitue l’unicité de toute personne :

· 1. Son apparence physique : carrure, démarche, visage, mimiques faciales, etc.

· 2. Son identité vocale : timbre de voix, accent, intonation, façon de rire.

· 3. Son caractère, au sens de ce que la personne dirait et ferait confrontée à tel ou tel propos ou situation

Cette liste ne prétend pas à l’exhaustivité, on a par exemple exclu ici les dimensions tactile et olfactive, ou encore la notion d’âme, mais il paraît recevable que si l’on parvient à reproduire avec assez de fidélité les éléments cités plus haut, on aura d’une certaine manière et en partie redonné vie à la personne disparue.

Penchons-nous maintenant sur l’état de l’art et prêtons-nous à un peu d’extrapolation, à peine.

1. Résurrection de l’apparence

Sur la base de quelques photos de vous, il sera possible un jour pas si lointain de vous reconstituer instantanément sous la forme d’un avatar 3D des plus réalistes, que l’on pourra faire évoluer et s’exprimer dans un jeu vidéo, un film, un univers tridimensionnel de réalité virtuel, ou enfin la « vraie vie » via des lunettes de réalité augmentée. La qualité du rendu sera telle, qu’il sera difficile voire impossible de savoir s’il s’agit de l’original ou de la copie.

Pour nous en convaincre, regardons où en sont les chercheurs.

Grâce à de simples capteurs Kinect d’une valeur de 100 Dollars, et aux bons algorithmes, des chercheurs de l’Université de South California ont dévoilé en 2014 un procédé permettant de reconstruire à l’écran de façon automatisée et en quelques minutes un membre de leur équipe sous la forme d’un avatar 3D. Le logiciel reconnaît les différentes parties du corps et leur assigne les degrés de liberté propres à notre espèce, ce qui permet ensuite de contrôler l’avatar et de le faire se mouvoir, courir ou sauter. (La démo en vidéo de 2’30’’)

Saviez-vous d’ailleurs que dans certaines scènes du dernier Fast & Furious, il a fallu recréer le visage et les expressions de l’acteur principal Paul Walker grâce à un mélange d’archives vidéos et d’images de synthèse, suite à son décès accidentel survenu avant la fin du tournage ? Le résultat est satisfaisant, vous pouvez vous en faire une idée dans cette vidéo arrêtée à la bonne minute)

Vous avez peut-être aussi entendu parler tout récemment de l'application iPhoneMyIdol, qui est une des rares applications éditées par un studio chinois à avoir enflammé l’internet mondial aussi vite (et elle n’est disponible qu’en chinois pour l’instant !). Elle permet de se doter gratuitement et quasi instantanément d’un avatar à son effigie, associé à un corps cartoonesque que l’on peut faire danser et parader dans toutes sortes de décors. Il suffit pour cela de télécharger sa photo au départ. Même si le résultat peut paraître primitif au vu d’autres technologies, la gratuité, rapidité et simplicité d’utilisation de l’outil ont vite fait de générer un buzz international. Cela révèle la fascination des humains pour ces technologies permettant de recréer des avatars réalistes. Imaginez donc ce qui sera disponible et abordable dans 30 ans vu que ce qu’on sait déjà faire et l’intérêt du public !

Si vous avez cinq minutes et êtes prêt à vivre une expérience en ligne troublante, je suggère que vous alliez faire un tour sur ce site édité par l’entreprise américaine Oddcast où vous pourrez créer votre propre avatar réaliste en moins de 5 minutes (gratuit et sans inscription). Cliquez « create your own » et uploadez simplement une photo de vous, suivez les indications, les points clefs du visage seront détectés assez précisément, à vous de les ajuster au besoin et voyez ensuite votre photo prendre vie, votre avatar tournera sa tête de gauche à droite, clignera des yeux, et suivra votre souris du regard, c’en est presque perturbant.

Ce qui est peut-être le plus bluffant en la matière à mon sens est cette reproduction à l’écran en temps réel du visage et des expressions du chercheur Ari Shapiro, toujours de l’université de South California, visible dans cette vidéo de 2 minutes datant déjà de 2013. Le chercheur s’exprimait et grimaçait face à une bardée de caméras filmant son visage sous tous les angles, tandis qu’à l’écran son double était généré en 3D en temps réel avec une qualité à couper le souffle (vous pouvez en savoir plus sur le mode opératoire avec cette vidéo de 2 min). Si le dispositif de saisie est encore conséquent, une fois enregistré un certain nombre d’expressions faciales, on peut très bien imaginer pouvoir contrôler le visage et lui faire mimer à loisir toute sorte d’émotion, voire laisser une intelligence artificielle s’en occuper (cf partie 3.). On peut aussi penser que la saisie elle-même deviendra de plus en plus simple, une jour une simple photo suffira.

Dans cette dernière expérience, on voit que peut-être le seul élément qui pêche est le réalisme de l’intérieur de la bouche, notamment les mouvements de la langue, absente car très dure à modéliser. C’est toutefois le problème particulier que Microsoft sait surmonter depuis 2011, avec des moyens « simples » au demeurant : un modèle 3D « grossier » de la tête du sujet obtenu grâce à un scan via Kinect, sur lequel apposer les détails de son visage, à saisir au préalable avec une seule caméra. Des algorithmes de reconnaissance des formes permettent de lier le tout en assurant une bonne fluidité lors de la mise en mouvement. En 2011, la prise vidéo était de 20 minutes minimum, pendant laquelle le sujet doit prononcer une série de phrases afin que puissent être enregistrés tous ses mouvements de bouche (lèvres, mâchoire, langue) et les sons auxquels ils correspondent. Puissants modèles statistiques de machine learning et synthèse vocale permettent ensuite de faire le chemin inverse et de proposer un rendu réaliste de la bouche et de son intérieur en temps réel pendant qu’est prononcé n’importe quel texte. Je vous invite à regarder un très court extrait de cette vidéo de Microsoft présentant la technologie évoquée, en commençant directement à 1’10’’.

Les cheveux restent aussi très compliqués à modéliser en temps réel, mais encore une fois, ce n’est qu’une question de temps avant que puissance de calcul suffisante et abordable couplée aux bons algorithmes viennent rendre cela possible.

Il est ainsi très probable que d’ici 30 ans, on puisse très simplement créer un avatar 3D au réalisme parfait reproduisant un être cher et disparu dont on aurait conservé quelques photos.

Dans un tout autre registre, les progrès en génie génétique permettront sans doute un jour à partir d’un fragment d’ADN de déterminer, précisément à l’âge voulu, l’apparence, le visage et la carrure d’un individu. Une technologie américaine rendue publique en décembre 2014 permet déjà à partir de l’ADN de reconstituer un portrait-robot en 3D en identifiant avec assez de précision couleur de peau, des yeux et des cheveux, genre, origine ethnique et forme du visage. C’est encore rudimentaire mais s’annonce prometteur.

Au-delà de l’apparence corporelle et faciale, c’est aussi la façon de marcher, de rire, d’éternuer, de s’agacer, et tout ce qui constitue notre gestuelle qui pourra être saisi puis généré à l’envi par la machine. Pour cela il faudra, plus que des photos, des vidéos. Plus il y en aura, meilleure sera la reconstitution. La machine analysera chacun des faits et gestes du sujet et saura les reproduire dans des contextes inédits. Ou alors, possiblement, imiter et mimer l’être cher face caméra suffiront, à la façon des humoristes qui pastichent les hommes politiques. L’imitation sera ensuite appliquée à l’avatar, regardez par exemple comment sont obtenues les mimiques de Gollum dans le Seigneur des Anneaux à partir du jeu de l’acteur Andy Serkys. Décoder et pouvoir reproduire à la volée apparence physique et jeu de scène permettront d’ailleurs un jour à tout un chacun de s’improviser réalisateur de fictions en images de synthèse réalistes, instantanément générées grâce à des requêtes du type « faites que dans Pulp Fiction Samuel L. Jackson joue comme Louis de Funès l’aurait fait » ou « remplacer Travolta par Belmondo dans le rôle de Vincent Vega dans Pulp Fiction ».

On aura alors réussi à ressusciter l’apparence dans toutes ses subtilités. Et l’on pourra la situer dans un environnement de son choix, à l’écran, mais pas seulement, également dans des univers de réalité virtuelle accessible via casque immersif. Une étape décisive dans cette quête de la résurrection sera atteinte quand en chaussant ses lunettes de réalité augmentée, on pourra voir le monde tel qu’il est, comme avec de banales lunettes transparentes, à ceci près que s’y trouvera présent l’être disparu, incrusté dans le décor de façon fluide et réaliste, et avec lequel on pourra interagir et discuter. Microsoft semble être en pointe sur le sujet avec ses lunettes HoloLens qui permettent par exemple de voir un toucan virtuel se poser dans votre salon, la démo qui en a été faite fin avril 2015 est sidérante (voir la vidéo de 2 minutes).

Les techniques de projection 3D sans lunettes sont aussi très intéressantes. On peut citer l’« angled mirror illusion », utilisée pour « ressusciter » Tupac en 2012 (voir le rendu ici et l’explication précise là). Une autre technique venue à nouveau de la très en pointe université de South California permet de recréer un double en 3D d’une personne au moyen de 216 projecteurs braqués sur un écran semi-transparent, vous pouvez voir sur cette vidéo la nature du dispositif permettant à un journaliste de CNN de dialoguer avec son double reconstitué en trois dimensions. Ces techniques supposent toutefois d’avoir aménagé une scène adaptée dont on ne peut s’abstraire, ce qui réduit leur potentiel d’augmentation de la réalité et leur utilisation au quotidien.

Un autre moyen un peu plus farfelu de ressusciter l’apparence d’un proche disparu serait le recours à l’impression 3D et à la robotique. En partant d’une modélisation tridimensionnelle du sujet, on pourra imprimer un visage et une enveloppe charnelle à même d’habiller un robot humanoïde. Voilà par exemple la brève vidéo d’un robot arborant un visage animé par 40 moteurs. Imaginez par ailleurs que le petit Asimo de Honda peut déjà courir, monter des marches, remplir un verre ou encore marcher à cloche-pied (cf vidéo), alors qui sait ce qu’on pourrait faire d’ici à trente ans en associant ces technologies ! Cependant, il faudra vraisemblablement bien plus de temps que pour les avatars virtuels avant que le rendu de ces robots ne devienne suffisamment réaliste et qu’on se prête au jeu.

Encore plus incongru, le clonage reproductif est aussi une possibilité, à condition d'avoir gardé un fragment d'ADN. Il est toutefois interdit partout dans le monde, et supposerait de toute façon dans notre optique de ne pas laisser à ce jumeau retardé qu’est le clone la possibilité de développer sa personnalité propre, pour mieux la remplacer par une émulation de celle de l’individu d’origine (cf 3.), une pratique inhumaine qui ne manquerait pas de susciter d’immenses problèmes éthiques.

2. Résurrection de l’identité vocale

L'entreprise européenne Acapela, forte de 30 ans de recherche, a développé une des technologies les plus avancées en la matière. Elle peut en effet déjà cloner votre voix de façon satisfaisante en synthétisant votre timbre, intonations et accent une fois que vous aurez lu 1500 phrases, et tout peut se faire via un simple micro-casque via internet ! La techno est aujourd'hui utilisée notamment pour venir en aide aux patients risquant de perdre leur voix et désireux de pouvoir la sauver pour continuer à l’utiliser. Vous pouvez ensuite faire dire à votre voix n'importe quel texte, et dans n'importe quelle langue d'ailleurs ! (Cliquez ici pour plus d'informations.)

Ce n'est qu'un début, imaginez que dans moins de 30 ans quelques minutes à peine de la voix d'un proche disparu pourraient suffire à la régénérer virtuellement, à la quasi perfection. Non seulement la voix, mais aussi la façon de l'utiliser, la façon propre à chacun de placer des intonations.

Si cela semble riche de promesses, on imagine aussi les dérives qui ne manqueront pas d’apparaître dans un monde où l’on peut par exemple emprunter la voix de n’importe qui pour passer un coup de fil.

3. Résurrection de la personnalité grâce au progrès en Intelligence Artificielle (IA)

Apparence, voix, démarche et intonations reproduites à l'identique constitueront un grand pas vers la résurrection virtuelle des êtres chers, mais sans la possibilité de simuler fidèlement ce qu’on appelle tour à tour la personnalité, l'intelligence ou le caractère, ce calque parfait risque de sonner désespérément creux.

Les progrès en IA sont tels cependant qu'on peut imaginer sans trop de naïveté que d'ici à trente ans, un logiciel, sur la base d'assez d'informations, puisse se faire passer pour n'importe qui et tenir une discussion (par chat, audio ou audiovidéo) qui pourrait tromper le plus proche des proches.

Le test de Turing définit une des étapes vers la constitution d'une IA capable de berner les hommes : ce moment où via une discussion par « chat » il est impossible de savoir si notre interlocuteur est un humain ou une machine. Ce test aurait été passé avec succès en 2014 quand un programme informatique aurait réussi à se faire passer pour un garçon de 13 ans. Même si l’importance de la nouvelle est exagérée et si le test de Turing reste une distraction pour de nombreux chercheurs en IA, on comprend sans trop de peine quel est le sens de l'histoire.

Ray Kurzweil, ingénieur en chef chez Google, est un prospectiviste de renom, sans doute le meilleur, ses prédictions folles depuis trente ans se sont avérées pour la majorité exactes. Il prédisait en 2014 qu’en 2029 : "computers will be more intelligent than we are and will be able to understand what we say, learn from experience, make jokes, tell stories and even flirt".

Imaginez que l’ordinateur Watson d’IBM a battu en 2011 les plus grands champions du jeu américain Jeopardy (vidéo), l’équivalent de Questions pour un champion, sachant que cela suppose de comprendre instantanément des phrases exprimées à l’oral et chargées de subtilités linguistiques et autres double sens. Watson est d’ores et déjà utilisé pour établir des diagnostics médicaux plus fiables et plus rapidement que ce que peuvent faire les meilleurs médecins après des années d’études et d’expérience.

Des programmes seront ainsi inévitablement créés qui pourront apprendre sur l'être cher, pour parvenir à réfléchir, parler et se comporter comme lui, comme il aurait pu le faire. Avoir documenté ce qui a fait la vie du sujet sera clef : quelles ont été ses lectures ? Quels films a-t-il vus ? Quelle est son histoire ? Où est-il allé ? Qui a-t-il rencontré ? Qu'a-t-il écrit, photographié ? La machine pourra se nourrir de tous ces éléments et simuler une personnalité d'autant plus parfaitement qu'il y aura d'informations disponibles. L’avatar se trompera parfois, évidemment, et l’on se surprendra à lui dire : « Non, Pierre n’aurait jamais dit cela », mais il en tirera les leçons et tendra progressivement vers la perfection. L’IA saura aussi redévelopper une personnalité complexe et multifacette car on n’est jamais exactement le même avec tout le monde. La machine saura tenir compte du contexte et changer de comportement en fonction de qui lui fait face pour refléter au mieux ce qu’aurait fait l’être disparu en toute situation.

A vrai dire, le problème à terme sera surtout d'une part d'avoir assez d'informations sur ce qu'a dit, fait, vécu, lu, vu, entendu le proche disparu et d'autres part de brider l'intelligence artificielle pour qu'elle garde sa crédibilité. Ce n'est pas parce que mon frère disparu avait lu L'Homme révolté de Camus qu'il l'avait retenu par cœur. Mais rien qui ne puisse être surmonté d’ici à trente ans à en croire Ray Kurzweil, compte tenu de l’état de l’art et du rythme exponentiel du progrès en IA.

Conclusion

En extrapolant et combinant les technologies présentées, on imagine un monde d’ici une génération où l’on pourra dialoguer avec un avatar en 3D troublant de réalisme, reproduisant à la perfection l’apparence, la voix, les intonations, la gestuelle d’un être cher disparu, grâce en amont à seulement quelques photos et vidéos. Cet avatar pourra se fondre dans notre environnement grâce au progrès en réalité augmentée. L’avatar enfin pourra parler, se comporter, agir et réagir comme le proche aurait pu le faire, en s’améliorant même avec le temps. Cela ne le ramènera pas, lui et son âme, en tant que tel dans son entièreté, mais ce sera toujours bon à prendre pour perpétuer sa mémoire.

Et plus largement, toutes les technologies évoquées ici devraient profondément bouleverser nos façons de communiquer et de nous divertir. Attachons nos ceintures !