Test de Dream Machine : faut-il adopter le ChatGPT de la vidéo ?

Dévoilé par le laboratoire américain Luma AI, Dream Machine permet de générer des vidéos à partir de descriptions textuelles ou d'images.

La génération de vidéo avance à grand pas en ce milieu d'année. Après Sora chez openAI, Kling chez le chinois Kuaishou, voici venu Dream Machine développé par le laboratoire Luma AI. Dévoilé officiellement en bêta publique le 12 juin dernier, l'IA impressionne et fait le buzz sur les réseaux sociaux. Mais qu'en est-il vraiment ? Dream Machine peut-il être utilisé dans le cadre d'un usage professionnel ? Nous avons testé le modèle sur plusieurs cas d'usage.

Une équipe aguerrie en réseaux neuronaux

Pour l'heure, Luma n'a pas communiqué les dessous techniques de son modèle. La petite start-up basée à San Francisco depuis sa création en 2021 dispose toutefois d'une équipe experte en intelligence artificielle et plus particulièrement en computer vision. Le cofondateur et directeur technique Alex Yu était auparavant chercheur en IA à l'Université de Californie à Berkeley, où il a publié des travaux pionniers sur le rendu neuronal en temps réel de scènes 3D et la génération à partir d'une seule image. De son côté, le cofondateur et PDG Amit Jain a travaillé chez Apple sur les expériences multimédias du casque Vision Pro. L'entreprise s'appuie également sur Jiaming Song, scientifique en chef reconnu pour ses travaux sur les modèles de diffusion, qui ont permis d'améliorer de manière significative les performances de l'état de l'art.

Avant de lancer Dream Machine, Luma disposait déjà de Genie, un modèle fondation de génération 3D. La start-up a ainsi levé 43 millions de dollars lors d'un tour de financement de série B en janvier. Le tour de table a été mené par le fonds de capital-risque Andreessen Horowitz, avec la participation d'autres investisseurs comme Amplify, Matrix et Nvidia. Le financement de l'époque devait servir au financement d'un cluster de plus de 3 000 GPU Nvidia A100 pour entraîner de nouveaux modèles. Dream Machine est, très probablement, le résultat de cet entraînement.

Des vidéos souvent réalistes

Techniquement, on peut supposer au vu des expertises internes de Luma que Dream Machine se base sur une savante orchestration de modèles de diffusion couplés à des modèles transformers. Dream Machine propose deux types de prompt : le prompt textuel classique ou le prompt textuel assorti d'une image. L'interface de Dream Machine est sobre et très simple d'utilisation. La génération prend quelques minutes, un temps plutôt respectable pour un modèle de génération vidéo.

L'interface de Dream Machine. © Capture d'écran

Premier test, nous demandons à l'IA de générer une abeille butinant une fleur. Le résultat est globalement satisfaisant, même si la cohérence visuelle du mouvement des ailes laisse à désirer. Le modèle parvient toutefois à bien identifier la demande et génère la vidéo attendue.

Prompt : A macro shot of a bee foraging on a flower.

"A macro shot of a bee foraging on a flower."

Plus complexe dans la théorie, nous demandons à l'IA de générer la vidéo d'un couple dansant sous la pluie, devant la tour Eiffel à Paris. Le résultat est, de manière surprenante, visuellement parfait. Le plan est graphiquement et cinématographiquement cohérent et qualitatif. Petit bémol, l'IA ne parvient pas à comprendre (ou générer) l'action principale : la danse. Les deux personnages sont immobiles. Le plan est toutefois parfaitement utilisable tel quel.

Prompt : A man and a woman dance in front of the Eiffel Tower in Paris, in the rain.

"A man and a woman dance in front of the Eiffeil Tower in Paris, in the rain."

Nous demandons maintenant à l'IA de générer le plan d'un homme chevauchant son cheval sur le site de Monument Valley. L'IA parvient, encore, avec brio à générer la scène attendue. Le plan est cohérent et visuellement qualitatif. Seules quelques saccades aléatoires et un effet fond vert laisse penser à une vidéo générée par IA.

Prompt : A man rides his horse in Monument Valley. Dolly shot.

"A man rides his horse in Monument Valley. Dolly shot"

Plus complexe nous demandons à l'IA de générer une vue aérienne de Paris, comme un drone aurait pu la capturer. Le résultat est ici plus décevant. L'IA parvient à comprendre la demande mais génère une vidéo peu crédible sur le fond et sur la forme. La vidéo présente une vue atypique ou la cathédrale Notre-Dame semble avoir fusionné avec le tour Eiffel. Sur la forme, l'image est peu crédible et ressemble à une vue 3D dans Apple Plan ou Google Maps. Il est possible que l'IA ait été entraînée sur un dataset avec des vidéos 3D issus de ces applications. Un fine-tuning sur des vidéos aériennes plus diverses pourraient, très certainement, corriger le problème.

Prompt : A drone aerial view of Paris.

"A drone aerial view of Paris."

Nous choisissons enfin de tester les capacités de génération du modèle en ajoutant une image de référence dans le prompt. Au moment du test, la fonctionnalité semble victime de son succès et aucune vidéo ne parvient a être générée après plusieurs dizaines de minutes. Les résultats publiés sur les réseaux sociaux par de nombreux utilisateurs démontrent toutefois une vraie maitrise de l'animation d'image fixe.

Trois abonnements payants proposés

Luma AI propose quatre offres pour l'utilisation de Dream Machine :

Une offre gratuite permettant de générer jusqu'à 30 vidéos par mois, sans utilisation commerciale.
Une offre à 23,99 dollars par mois pour 120 vidéos par mois, l'utilisation commerciale et la génération prioritaire.
Une offre à 79,99 dollars par mois pour 400 vidéos par mois, l'utilisation commerciale et la génération prioritaire.
Une offre à 399,99 dollars par mois pour 2000 vidéos par mois, l'utilisation commerciale et la génération prioritaire.

Une image contenant texte, capture d’écran, logiciel, PoliceDescription générée automatiquement

Bien que Dream Machine ne soit pas encore parfait, le modèle de génération vidéo développé par Luma AI représente une avancée majeure dans un domaine encore émergent de l'IA générative pour la génération de vidéo. Ses performances générales sont particulièrement impressionnantes, avec des résultats très réalistes sur de nombreux types de scènes et de mouvements. Certes, le modèle montre encore quelques faiblesses, comme des incohérences dans les mouvements complexes ou des difficultés à saisir certains détails d'un prompt. Mais il s'agit là de défis techniques communs aux tout premiers modèles de génération vidéo de cette qualité.

Avec un dataset d'entraînement plus riche et diversifié, ou la possibilité pour les utilisateurs de finetuner le modèle sur leur propre matériel, Dream Machine gagnerait sans aucun doute en fiabilité et en précision. Déjà, le modèle peut être très utile pour ajouter rapidement des plans simples et réalistes dans un montage vidéo. Un modèle à suivre de très près.