Après Dall-E puis ChatGPT, voici l'IA générative de vidéos

Après Dall-E puis ChatGPT, voici l'IA générative de vidéos Google, Meta, Runway, etc. Des Gafa aux start-up, les projets se multiplient dans la création automatique d'images animées. Une lame de fond qui promet d'être l'une des tendances de l'année.

Décidément l'IA générative n'a pas fini de surprendre. Début 2022, la vague commençait avec les modèles de génération d'images au premier rang desquels les désormais célèbres Dall-E, Midjourney ou Stable Diffusion (lire l'article IA de génération d'images : le test du JDN révèle des résultats surprenants). Fin 2022, la tendance s'est poursuivie avec le raz-de-marée ChatGPT. Depuis, les annonces ne cessent de pleuvoir dans l'IA générative de texte. Microsoft est en train d'intégrer ChatGPT à Bing. Meta a annoncé son intention d'intégrer sa propre IA conversationnelle à Messenger et WhatsApp. Quant à Snapchat, il exploite déjà ChatGPT au cœur de sa messagerie. Mais depuis quelques mois, une troisième catégorie de modèle génératif est en train de naître, sur le front de la vidéo cette fois.

Tout commence début 2022. On est loin du battage médiatique de ChatGPT. L'IA générative n'est alors suivie que par de rares initiés. En février, le new-yorkais RunWayML lance Gen-1. Ce réseau de neurones profonds est conçu pour styliser une vidéo à partir d'un prompt ou d'une image avec le graphisme recherché (voir la vidéo Youtube ci-dessous, reprenant les démonstrations officielles de l'éditeur). Il s'agit là, déjà, d'une expérience digitale bien plus complexe à réaliser que ce que produisent les IA existantes alors dans ce domaine, telles GliaCloud, Synthesia, Designs.ai ou QuickVid, toutes centrées sur l'automatisation de présentation par le biais d'avatar ou d'animation.

Les premiers ChatGPT orientés vidéo

En mai 2022, une équipe de chercheurs chinois livre un deuxième modèle de génération de vidéo, depuis distribué par Hugging Face. Baptisée CogVideo, cette IA de text-to-video (T2V) permet d'obtenir, à partir d'une simple description, des séquences réalistes de personnage en mouvement. C'est l'une des toutes premières technologies du genre. Reste que la qualité du rendu n'est pas au rendez-vous. Le mouvement est saccadé et les images pixélisées.

Il faut dire que les défis à relever sont grands pour aboutir à une IA générative de vidéo digne de ce nom. "Pour commencer, l'espace de représentation des images animées est fondamentalement plus grand que celui des images fixes. Ce qui implique de posséder de grands ensembles d'exemples de vidéos étiquetées. Des data sets beaucoup moins courants que les bases de données purement textuelles", détaille Jesus Rodriguez, CEO du cabinet américain IntoTheBlock. "Les modèles de T2V impliquent en outre, non seulement d'ingérer les caractéristiques de différents objets, mais également de saisir les relations telles que les mouvements, les interactions entre objets et la représentation de l'ensemble dans un clip cohérent." Autant d'enjeux techniques qui rendent l'exercice des plus ardus.

Confronté depuis plusieurs mois à ces défis, Meta lève le voile en septembre 2022 sur une IA de génération de vidéo nettement plus aboutie. A l'instar de CogVideo, cette IA baptisée Make-A-Video fait appel à des techniques de pré-entrainement non-supervisé qui ont déjà fait leurs preuves avec les modèles de génération d'images fixes. Concrètement, l'édifice s'adosse à trois couches. En amont, un modèle entraîné sur des paires texte-image contribue à tisser le lien entre descriptions et objets graphiques. Ensuite, une couche spatio-temporelle capte la relation temporelle entre les objets eux-mêmes. Enfin, un réseau d'interpolation de trames optimise la qualité du rendu final en augmentant le nombre de trames créées pour gagner en finesse.

Exemple de vidéo générée par l'IA Make-a-Video de Meta. © Meta

En octobre 2022, c'est au tour de Google d'entrer en scène. Le groupe publie son premier article de recherche sur la génération de vidéo. Dans ses laboratoires, le groupe développe son propre modèle. Une technologie qu'il n'a pas choisi de diffuser. C'est l'une de ses principales différences avec Meta qui, lui, propose son prototype en test outre-Atlantique. Baptisée Imagen Video, l'IA de Google permet d'obtenir des séquences vidéo en haute définition (en 1280×768 pixels et 24 images par seconde). "Imagen Video se compose de sept modèles de diffusion qui gèrent des tâches telles que la génération vidéo conditionnelle à partir de texte, la super-résolution spatiale et la super-résolution temporelle. Ces modèles de diffusion en cascade ne sont pas une idée nouvelle, mais c'est l'une des premières fois qu'ils sont appliqués à la génération vidéo HD", explique Jesus Rodriguez.

Vers des produits aboutis

Le principal bénéfice de la méthode de Google ? "Il réside dans la capacité à résoudre des problèmes de grande dimension en utilisant une combinaison de modèles relativement simples en les utilisant simultanément pour générer la vidéo finale", précise Jesus Rodriguez. Autre avantage : le recours à plusieurs sous-modèles permet de paralléliser l'entrainement sur plusieurs machines de calcul, et donc mécaniquement d'accélérer une phase d'apprentissage potentiellement très chronophage compte-tenu du volume de données à ingérer (la vidéo, c'est lourd !). L'entrainement d'Imagen Video a été réalisé à partir de la base de données image-texte open source LAION-400M, à laquelle ont été ajoutés 14 millions de points de donnée rapprochant une vidéo et un texte et 60 millions rapprochant une image et un texte.

Les initiatives de Google et Meta sont encore à l'état de prototypes. Mais on pourrait très bien voir apparaître rapidement l'équivalent d'un ChatGPT appliqué à la vidéo. Une telle technologie permettrait, à l'instar des premières BD réalisées à partir de Midjourney (cf. The Bestiary Chronicles), de voir émerger de véritables films d'animation créés à partir d'une IA.