MiniMax, l'IA chinoise pour générer des vidéos à moins de 30 centimes

L'éditeur d'IA chinois MiniMax a présenté un modèle de génération de vidéos. Les résultats sont convaincants et s'approchent de ceux de Sora.

Près de 7 mois après son annonce en février 2024, Sora, le modèle de génération vidéo d'OpenAI, n'est toujours pas accessible au public. Le géant américain tarde à rendre sa technologie disponible. Quelques mois de retard seulement, sur un marché de niche, qui ont largement profité aux éditeurs chinois d'intelligence artificielle. Et après Kling, c'est au tour d'un nouvel acteur d'émerger dans le domaine de la génération vidéo : MiniMax. L'entreprise a lancé début septembre Video-01, un modèle de génération vidéo.

Une petite start-up soutenue par des géants

Lancée il y a seulement deux ans et demi (2021), Minimax s'est spécialisée dans la création de modèles d'IA fondation, d'abord pour le texte, ensuite pour l'image et l'audio et aujourd'hui pour la vidéo. L'entreprise est directement soutenue par les géants de la tech chinoise Alibaba et Tencent. Elle se positionne comme un acteur incontournable de l'IA en Chine. MiniMax affirme avoir plus de 3 milliards d'interactions avec ses modèles d'IA chaque jour et traiter plus de 3 000 milliards de tokens quotidiennement.

Bien que tournée vers le B2B avec des API pour l'ensemble de ses modèles, l'entreprise met également ses IA à disposition du grand public. C'est notamment grâce à son assistant Hailuo qu'il est possible de tester le nouveau modèle Video-0.

Video-01 : la génération de vidéos à portée de tous ?

Video-01 se distingue des autres modèles par sa capacité à comprendre et suivre de manière rigoureuse les prompts qui lui sont soumis. Video-01 utilise une architecture qui bénéficie de l'expérience de MiniMax en traitement de texte. Bien que les détails techniques autour du modèle n'aient pas été communiqués, on sait que Video-01 utilise la linear attention. La technique permet au modèle de traiter plus efficacement de longues séquences vidéo en réduisant la complexité des calculs. Cela se traduit par une amélioration des performances du modèle, notamment dans sa capacité à générer des vidéos plus longues et plus détaillées, tout en utilisant moins de ressources de calcul.

Video-01 est capable de générer aussi bien des scènes de films 3D que des animations 2D dans divers styles. L'entreprise affirme que son modèle est actuellement le meilleur sur le marché de la génération vidéo par IA. L'utilisation via API ou en utilisant Hailuo est très simple et ne nécessite aucune connaissance technique. L'utilisateur doit simplement saisir un prompt. La génération ne prend que quelques minutes.

Un photoréalisme bluffant

Nous avons pu tester Video-01 en utilisant la plateforme Hailuo de MiniMax. Bien que le site soit en chinois simplifié, son utilisation est assez simple. Les prompts peuvent être rédigés en français. Video-01 permet de générer des vidéos en format MP4 de 1280x720. Point limitant majeur, les vidéos générées ne peuvent excéder les 6 secondes pour le moment. Une limite qui devrait rapidement évoluer avec les prochaines mises à jour du modèle.

L'aspect le plus bluffant de Video-01 reste la qualité des productions photoréalistes générées. L'IA parvient à reproduire parfaitement (ou presque) le monde réel. Nous demandons par exemple à l'IA de générer la vidéo d'une voiture roulant sur les Champs Elysée. Le résultat final est assez qualitatif bien que le modèle semble souffrir d'un léger décalage culturel / historique (présence d'une Citroën Traction du siècle dernier).

"Prompt : A car rolls down the Champs Elysées."

Prompt : A car rolls down the Champs Elysées.

L'autre point fort de Video-01 est sa capacité à gérer à la perfection des mouvements complexes, comme c'est le cas dans une scène d'action. Nous faisons ici générer à l'IA la vidéo d'un hélicoptère en vol au-dessus de la tour Eiffel. La vidéo est réaliste et pourrait avoir été tirée d'une véritable prise de vue.

"Prompt : A helicopter flies over the Eiffeil Tower."

Prompt : A helicopter flies over the Eiffeil Tower.

La force du modèle réside également dans la variété des styles proposés. Bien que le modèle performe mieux en photoréalisme, les résultats en 3D ou en style cartoon restent de bonne qualité.

"Prompt : A robot with glasses riding a bike in a circus. Cartoon style."

Prompt : A robot with glasses riding a bike in a circus. Cartoon style.

Par ailleurs, et selon nos différents tests, le modèle parvient véritablement à suivre le prompt initial du moment qu'il reste clair et bien structuré.

"Prompt : Realistic images from door cameras using a fisheye lens show a delivery man approaching the"

Prompt : Realistic images from door cameras using a fisheye lens show a delivery man approaching the front door. The fisheye effect distorts the edges of the image. Outside, in the dimly lit street, the shadows of neighboring houses and lampposts loom large. The deliveryman hesitates, then leans in to peer through a doorway, his terrifying face filling the camera's field of vision.

Des vidéos à faible cout

Avec une durée maximale de 6 secondes par clip et quelques artefacts visuels trahissant encore leur origine IA, ces vidéos ne sont pas encore adaptées à une utilisation professionnelle classique dans l'industrie audiovisuelle. Toutefois MiniMax affiche clairement ses ambitions sur le marché professionnel. La start-up a déjà mis à disposition Video-01 sur son API. La génération s'affiche à un prix de de 2 yuans par vidéo (soit environ 0,25 euro, toujours limitée à 6 secondes). Un tarif remarquablement bas compte tenu de la puissance de calcul nécessaire à la création de vidéos par IA.

Avec une mise à jour permettant la génération de vidéos plus longues et un support de l'anglais, le modèle pourrait rapidement conquérir de nombreux professionnels. Toutefois, l'équilibre des forces pourrait rapidement basculer une fois qu'OpenAI décidera de dévoiler pleinement les capacités de Sora au grand public. Les capacités démontrées par OpenAI dans d'autres domaines de l'IA laissent présager que Sora pourrait établir de nouveaux standards en matière de génération vidéo.