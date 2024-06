La société chinoise Kuaishou a développé un modèle de text-to-video équivalent au modèle Sora d'OpenAI.

Pas encore sorti, déjà détrôné ? Plus de quatre mois après son annonce, Sora, le modèle text-to-video d'OpenAI, n'est toujours pas disponible publiquement. Un flottement qui permet à des potentiels concurrents de se positionner. C'est le cas de la société chinoise Kuaishou qui présente en ce mois de juin 2024 un modèle text-to-video abouti et accessible au public. L'outil a été développé par l'équipe spécialisée dans la création de modèles d'IA de Kuaishou. Kuaishou édite une application de vidéo courte du même nom, sur le principe de TikTok.

Des images en 1080P et 30 FPS

Kling offre des caractéristiques assez intéressantes pour les professionnels de l'audiovisuel. Le modèle chinois est capable de produire des vidéos en haute définition 1080p à une fréquence de 30 images par seconde. Kling peut générer des vidéos d'une durée allant jusqu'à 2 minutes (soit une minute de plus que Sora). Enfin, le modèle se distingue par sa flexibilité dans les formats de sortie : grâce à une stratégie d'entraînement à résolution variable, Kling peut générer des vidéos dans une grande variété de rapports hauteur/largeur, s'adaptant ainsi à différents besoins de mise en scène et de diffusion.

Pour l'heure, Kuaishou ne fournit que peu de détails sur le dataset d'entrainement utilisé pour former Kling. On peut toutefois supposer qu'une grande quantité de vidéo de styles différents ont été utilisées (scènes, d'actions, de personnages, d'objets, d'environnements…). Le modèle a pu ensuite voir les transcriptions associées aux vidéos pour apprendre la correspondance entre les descriptions linguistiques et leur représentation visuelle.

Une savante architecture technique

On connait en revanche l'architecture à l'œuvre derrière le modèle. Kuaishou fait ici preuve de plus de transparence qu'OpenAI. Pour générer des vidéos à partir de prompt textuel, Kling se base sur un mécanisme d'attention spatio-temporelle 3D (technique avancée d'apprentissage profond) et un modèle transformer de type diffusion. Le processus commence par l'encodage du prompt textuel fourni par l'utilisateur. Le modèle transformer extrait des représentations sémantiques à partir du texte en capturant les concepts clés, les actions, les objets et les relations qui devront être transposés dans la vidéo générée.

Les représentations servent ensuite de point de départ pour le mécanisme d'attention spatio-temporelle 3D. Le modèle se concentre à la fois sur les éléments visuels pertinents dans chaque image individuelle et sur les transitions logiques entre les différents instants de la vidéo. Grâce à cette attention à la fois spatiale et temporelle, le modèle est en mesure de générer des séquences vidéo cohérentes et réalistes, fidèles au prompt initial. Le modèle de diffusion vient ensuite raffiner davantage la vidéo, en lissant les détails et en améliorant la qualité visuelle globale, pour aboutir à une génération vidéo de haute qualité.

En plus de ses capacités text-to-video, Kling intègre des techniques de reconstruction 3D du visage et du corps humain. A partir d'une seule photo en pied, le modèle peut animer le personnage en contrôlant finement ses expressions et ses mouvements, comme pour le faire chanter ou danser.

Exemple technique d'une reconstruction 3D à partir d'une simple image. © Capture d'écran

Des visuels aussi qualitatifs que Sora ?

Kuaishou a présenté plusieurs exemples de vidéos générées grâce à son modèle. Les résultats, bien que perfectibles, offrent un premier aperçu des possibilités.

La performance du modèle réside dans la qualité générale des images présentées et dans la cohérence globale sur la durée. Exemple ci-dessous, avec la vidéo d'un perroquet animé avec un effet de bokeh. Le modèle semble, comme Sora, avoir une bonne compréhension et gestion des repères physiques.

"Perroquet"

Prompt : Gros plan sur les plumes d'un perroquet bleu vif scintillant dans la lumière, montrant son plumage unique et ses couleurs vibrantes.

Autre exemple, plus conceptuel, avec ce lapin qui lit un journal lunettes sur le nez. Le tout est cohérent, crédible et de qualité correcte.

"Lapin"

Prompt : Un petit lapin blanc portant des lunettes est assis sur une chaise dans un café et lit un journal avec une tasse de café chaud sur la table.

Plus impressionnant encore, les équipes de Kuaishou présentent un plan séquence en 1 536 pixels par 2 688 pixels, un format smartphone. Un traveling qui reprend le cadre d'une fenêtre de train. La qualité globale n'est pas optimale mais donne une bonne idée des possibilités cinématographiques du modèle.

"Train"

Prompt : prenez un train et explorez divers paysages à travers la fenêtre du train.

Le modèle reste également efficient lors de la génération de nouveau concept. Exemple ci-dessous, avec l'éruption d'un volcan dans une tasse à café (assez créatif).

"Café"

Prompt : prise de vue macro, volcan en éruption dans une tasse à café.

Une disponibilité encore limitée

Capture d'écran de Kling dans l'app mobile de Kuaishou. © Capture d'écran

Kling est déjà disponible. Le modèle est intégré nativement dans l'application Kling (disponible sur iOS en chinois simplifié. Son accès nécessite toutefois, selon nos tests, un numéro de téléphone au format chinois. Gageons que Kuaishou sorte prochainement une version accessible au marché mondial, via une application ou une API pour développeur. Aucune information sur les droits d'utilisation des vidéos générées n'a été communiquée par la société.

Pour l'heure, nous ne pouvons vous recommander l'utilisation de cette application, pour des raisons techniques (numéro chinois, accessibilité réduite) et sécuritaires. En effet, l'Etat chinois détient en partie via le China Internet Investment Fund (entreprise d'Etat contrôlée par l'Administration du cyberespace de Chine) une participation dans l'entreprise. Pour autant, Kling n'en reste pas moins un modèle intéressant techniquement, à suivre de près.