Comment Meta va mettre en scène le métavers grâce à l'IA
Pour le groupe de Mark Zuckerberg, l'intelligence artificielle va devenir un pilier du monde virtuel. Le défi : traduire graphiquement et en temps réel les sentiments et préférences de l'utilisateur.
"Avec le métavers, l'IA va pour la première fois voir le monde (virtuel et réel, ndlr) comme nous le voyons, depuis les lunettes que nous portons. Elle pourra percevoir à la fois ce que nous regardons et entendons", analysait Mark Zuckerberg, patron de Meta, dans une présentation fin février. "Grâce à l'IA, le métavers va devenir un environnement que nous pourrons nous même créer et avec lequel interagir, avec toutes les informations de contexte associées. L'IA reconnaitra notre langue, nos mouvements, nos gestes, nos expressions faciales et les convertira virtuellement par le biais de notre avatar, y compris en termes d'intonation lors de la traduction de notre discours en temps réel dans une autre langue."
Principal enjeu dans ce cas ? Mettre en œuvre une IA multimodale capable d'anticiper les actions à venir dans le métavers. "Prédire ce qui va arriver dans une vidéo est nettement plus difficile que dans un texte ou de prédire les composants manquants dans une image. Imaginez alors le passage de la vidéo à l'expérience immersive qu'est le métavers, l'exercice est encore beaucoup plus complexe d'anticiper les interactions à venir. Notamment dans le cas de personnes qui passent du monde physique avec réalité augmentée à l'univers virtuel", détaille Mark Zuckerberg.
Deep learning avec Visual Transformer
Face à ce défi, Meta s'oriente vers l'apprentissage auto-supervisé. Intermédiaire entre l'apprentissage supervisé et non-supervisé, ce mode d'entrainement repose sur un réseau de neurones conçu pour ingérer des données non étiquetées. La méthode utilisée ? Masquer une partie des données d'apprentissage et entrainer le modèle à prédire et identifier à l'aveugle les données cachées (par exemple des éléments masqués sur une photo de chat). Le modèle génère ainsi par lui-même l'étiquetage des données.
En coulisse, le modèle de Meta tire parti de ResNet (pour residual neural network), un réseau de neurones développé initialement par Microsoft Research. Il repose plus spécifiquement sur sa nouvelle architecture baptisée Visual Transformer. "Ce type de réseau de neurones auto-supervisé est à la fois utilisé pour entrainer des modèles sur du texte et de la parole", précise au JDN Antoine Bordes, directeur du laboratoire parisien de Facebook centré sur la recherche en IA fondamentale. "Cette approche est particulièrement intéressante en vue d'aboutir à un modèle multimodal car elle introduit une convergence en termes d'architecture en combinant traitement vocal et visuel. Ce qui est pleinement adapté au métavers."
Sur la base de cette technologie, Meta développe notamment un réseau de neurones pour fournir une assistance virtuelle embarquée dans le métavers. Nom de code du projet : CAIRoke. "Il combinera notre technologie Blender Bot avec les IA conversationnelles de dernière génération pour optimiser l'interprétation d'une requête en langage naturel", résume Mark Zuckerberg. "Pour prendre en charge des possibilités de création et d'exploration avancées, nous devons optimiser encore l'état de l'art en matière de smart assistant."
Partant de tous ces travaux, Meta planche sur une preuve de concept d'assistant. Un agent intelligent, baptisé Buider Bot, conçu pour fabriquer un environnement virtuel sur-mesure à partir de la reconnaissance vocale des éléments de décors que l'utilisateur décrira (voir la vidéo de démonstration ci-dessous signée Facebook). "L'un des grands défis de ce projet consiste à contextualiser les demandes. C'est-à-dire à faire le lien entre une demande de l'internaute portant sur un objet à intégrer et les objets équivalents qu'il a vus auparavant dans le métavers", confie Antoine Bordes.
Et le chercheur de Facebook d'ajouter : "En se basant sur votre historique en matière de création d'environnements graphiques, nous serons en mesure de proposer des composants visuels personnalisés en fonction de vos préférences." Ensuite, le feature engineering permettra de gagner en finesse de détails, en donnant la possibilité par exemple de définir la forme ou la taille d'un arbre sa texture, sa couleur, le nombre d'arbres à ajouter...
Composer son propre métavers
Vous l'aurez compris. Buider Bot est un système qualifié de compositionnel. Entendez par là qu'il permet de créer de objets inédits à partir d'objets déjà observés, par exemple des arbres ou des rochers, mais en leur accolant des caractéristiques inédites. Ce qui permettrait d'aboutir à un arbre bleu ou un rocher vert par exemple. "En parlant, nous ne cessons de composer des phrases. L'idée est ainsi d'aboutir à la même logique dans le metavers. Ce qui ouvrira des possibilités infinies", complète Antoine Bordes.
Pour résumer, Meta planche principalement sur deux domaines de recherche en IA appliquée au métavers. En premier lieu, ses équipes de R&D travaillent sur la perception égocentrique de l'IA qui consiste à analyser le monde depuis la perspective humaine. En second lieu, elles bâtissent une nouvelle classe de modèles génératifs permettant de créer tout ce que l'utilisateur pourrait imaginer : ces fameux modèles Transformer visuel.