Stable Video Diffusion : que vaut l'IA de génération de vidéos de Stability AI ?

Stable Video Diffusion permet de générer des vidéos de quelques secondes à partir d'une image. Un modèle de recherche déjà prometteur.

Après l'image et l'audio, Stability AI s'est mis à la vidéo. La start-up britannique a dévoilé en novembre Stable Video Diffusion, un modèle open source capable de générer des vidéos. L'IA, basée sur le modèle phare de génération d'images stable diffusion, permet une première approche de la génération de vidéo à des fins de recherche et d'expérimentation. Deux modèles ont été dévoilés : SVD et SVD-XT. Le premier génère à partir d'une image une vidéo de 14 frames, et le second une vidéo de 25 frames. Les rendus sont de meilleure qualité qu'avec la première génération des modèles utilisée par Pika Labs.

Des vidéos de 4 secondes

Pour créer Stable Video Diffusion, les chercheurs ont repris les poids du modèle Stable Diffusion 2.1 et ont modifié l'architecture pour ajouter des couches temporelles afin que le modèle puisse gérer des vidéos. En plus des 865 millions de paramètres de Stable Diffusion 2.1, 656 millions de nouveaux paramètres sont ajoutés, soit un modèle final de 1,5 milliard de paramètres. Les chercheurs ont ensuite pré-entraîné le modèle sur plus de 152 millions de vidéos à basse résolution (256x384 pixels). L'objectif était d'apprendre au modèle la bonne gestion du mouvement. Enfin, l'IA a été fine-tunée sur un petit ensemble de données vidéo de haute qualité et en haute résolution. Le modèle serait maintenant capable de gérer plusieurs opérations complexes (text to video, image to video, génération multi-vues…).

Les deux modèles publiés en open source, SVD et SVD-XT sont capables de produire environ 3 à 4 secondes de vidéo avec une résolution relativement élevée (576x1024). On le verra par la suite, les vidéos produites sont plus qualitatives que les modèles propriétaires de Runway et Pika Labs en production au 15 novembre dernier.

Stability AI déconseille toutefois d'utiliser ses modèles en l'état dans un but professionnel ou commercial. Les versions publiées contiennent encore plusieurs défauts : génération maximale de 4 secondes de vidéo, qualité possiblement dégradée lors de certains mouvements, impossible de générer du texte proprement, impossible (pour l'heure) de contrôler le modèle via un prompt, difficulté à générer des visages humains réalistes. Ces deux premières versions se destinent, selon les conseils de l'entreprise, uniquement à la recherche.

SVD est meilleur que les modèles propriétaires équivalents. © Capture d'écran

Pour l'heure, aucune interface officielle ne permet de tester Stable Video Diffusion. Dans le cadre de ce test, nous choisissons d'utiliser stable-video-diffusion-img2vid-xt, la version image to video avec 25 frames. L'inférence d'un modèle d'une aussi grande taille étant quasiment impossible sur un ordinateur avec un GPU classique, nous choisirons d'exécuter le modèle depuis une instance Google Colab développée par un utilisateur GitHub. Pour rappel, Google Colab permet d'exécuter du code Python et des modèles d'IA et de machine learning en utilisant les ressources du cloud Google. La version gratuite permet de faire tourner le programme en utilisant l'accélération d'un GPU NVIDIA Tesla T4. Selon nos tests, produire une vidéo de 3 secondes avec une image prend, avec cette configuration, environ 8 à 9 minutes. Avec une instance accélérée par un Nvidia Tesla A100 (offre payante), le temps de génération annoncé par le développeur est d'environ 2 minutes.

Une gestion hasardeuse des mouvements de caméra

Pour l'heure Stable, Video Diffusion semble plus proche de générer des images animées que de véritables vidéos. Nos tests démontrent toutefois une véritable amélioration et une meilleure gestion des mouvements qu'avec l'IA de Pika. Lorsque le modèle parvient à identifier un sujet principal sur une image, il tente d'animer l'objet en lui-même. Nous fournissons au modèle l'image d'un oiseau. Ce dernier se détache de l'arrière-plan grâce à un effet bokeh prononcé. Au sein de la vidéo générée, le modèle tente des mouvements de caméra hasardeux et sur la fin un léger pivotement de la tête de l'oiseau. Le résultat n'est vraiment pas optimal.

Même constat lorsqu'on fournit l'image d'un hélicoptère dans le ciel. L'IA parvient à identifier les éléments à animer, en l'occurrence les pales de l'aéronef. Toutefois, les mouvements de caméra aléatoires rendent le tout peu réaliste. Plus globalement, la structure de l'appareil est dégradée et apparaît trop élastique. Avec quelques améliorations, et une meilleure gestion des mouvements, la vidéo pourrait sérieusement gagner en qualité.

Une bonne gestion des plans larges

Sur les images de type paysage, le modèle semble beaucoup mieux gérer la mise en mouvement des éléments. Lorsqu'on lui fournit une image d'une rue de New York avec de nombreux détails (taxis, piétons, vélos…), l'IA opte pour un traveling avant progressif. La foule, les voitures et le ciel sont animés à la manière d'un timelapse. Le résultat est plutôt cohérent et donne une vidéo assez qualitative.

De la même manière, sur un paysage large et statique, en l'occurrence ici une image d'aurore boréale, le modèle parvient à identifier avec facilité les zones de l'image à animer. Les étoiles avancent dans le ciel, toujours sur le principe du timelapse. La vidéo produite est globalement cohérente et offre un plan tout à fait qualitatif. La séquence gagnerait cependant en qualité si les lumières de l'aurore boréale étaient davantage animées.

Stable Video Diffusion apparaît donc comme une bonne base open source pour expérimenter l'image to video. L'outil permet une acculturation rapide. Les premiers résultats sont prometteurs, avec une capacité à identifier et animer les éléments clés d'une image. Toutefois, à ce stade, la gestion des mouvements de caméra et la cohérence temporelle restent perfectibles. Avec davantage de données d'entraînement et des architectures optimisées, les futurs modèles devraient franchir un palier qualitatif, pour des usages à la fois créatifs et professionnels.