Tutoriel : créer des vidéos cinématographiques avec Seedance 2.0

L'outil synchronise l'audio et la physique de façon impressionnante. Il exige de la précision sur la construction de la cohérence narrative, des images et des prompts.

Sur le marché de la génération de vidéos par IA, Seedance 2.0 fait un grand pas. Développé par ByteDance, la maison mère de TikTok, il constitue l’une des solutions les plus puissantes du marché. Lancé en février 2026, le modèle offre un contrôle granulaire inédit, à condition de maîtriser l'architecture complexe de ses flux de production.

Contrairement aux modèles text-to-video conventionnels, Seedance supporte l'injection simultanée de douze entrées, incluant des images, des clips vidéo et de l'audio. Cette approche permet un contrôle précis des vecteurs de mouvement, de la cohérence sémantique et de la signature sonore. Elle permet souvent une fidélité d'exécution supérieure aux modèles à modalité unique.

Une coordination fine audio / vidéo

Le cœur de Seedance 2.0 repose sur une architecture de dual-branch diffusion transformer. Les deux branches collaborent en temps réel via un "pont d'attention". Ce mécanisme permet une coordination très fine et synchronisée des contenus audio et vidéo, notamment au niveau de la coordination labiale. Le modèle intègre aussi nativement les lois de la physique (gravité, fluides, inertie) dans son moteur de calcul. Cette précision cinématique élimine les mouvements "flottants". Par exemple, si un personnage jette une clé à molette, l'IA calcule une trajectoire balistique réelle. L'objet suit une courbe mathématique influencée par une gravité simulée.

De plus, comme Kling Omni par exemple, les images incorporées dans Seedance 2.0 permettent de verrouiller l'apparence d'un personnage, les textures de vêtements ou le style des décors. Pour cela, l'IA consulte en permanence les images de référence grâce à des mécanismes d'attention.

Au niveau du prompt, Seedance 2.0 utilise une syntaxe de tags @. Elle attribue un rôle spécifique à chaque fichier importé. Il est possible de projeter la dynamique d'une source vidéo (@Video1) sur l'identité visuelle verrouillée d'une image (@Image1). L'ajout d'un signal audio (@Audio1) dicte le rythme du montage, l'ambiance sonore et la synchronisation labiale du personnage. Bien que les options d'exportation vers des résolutions supérieures comme la 4K soient techniquement possibles, la résolution native standard reste actuellement fixée au 1080p pour garantir la fluidité des mouvements.

Des restrictions géographiques

Mais tout n’est pas idéal. Vous souvenez-vous des scènes virales de bagarre entre Tom Cruise et Brad Pitt ? Générées par Seedance 2.0, elles illustrent bien le problème des droits d’auteur auquel est confrontée la plateforme. ByteDance a récemment mis en pause le lancement mondial officiel de Seedance 2.0 suite à des pressions liées aux droits d'auteur à Hollywood. De fait, les plateformes officielles du groupe ByteDance, comme Dreamina (CapCut), bloquent désormais l'accès au modèle, notamment depuis la France. Pour contourner cette restriction sans recourir à un VPN, il est possible de passer par la plateforme tierce PiAPI, qui propose une version Preview de Seedance 2.0.

Cas concret : L’Odyssée de Bob pour trouver de l’essence

Pour mieux comprendre les possibilités de cet outil, nous allons créer une petite vidéo intitulée "L’Odyssée de Bob". Elle met en scène un homme à la recherche d’essence de façon légèrement humoristique, ou tragique, au choix. Pour la créer, nous allons sur piapi.ai/seedance-2-0, où nous nous inscrivons avec notre adresse mail.

Nous nous rendons dans la section "Playground", en Preview.

Au niveau de la tarification, le plan "Creator" à 20 USD par mois permet notamment de bénéficier de crédits mensuels suffisants pour créer de petites vidéos.

Préparer les ressources

Avant de générer la vidéo, nous allons d’abord créer des images des personnages et des lieux. Le storyboard détermine l’action, le cadre, le mouvement de caméra et la durée estimée des scènes. Plus spécifiquement pour Seedance 2.0, il définit des ancres visuelles, avec la position des personnages et des décors. Cela impose une constance granulaire. Si le storyboard montre un siège déchiré dans les vignettes 1 et 5, l'IA sait qu'elle doit maintenir ce détail précis sans "halluciner" un siège neuf entre les deux. Pour générer les images, nous utilisons Nano Banana Pro 2. Nos prompts sont détaillés. Par exemple, pour l’image de la station de recharge électrique :

"Photorealistic cinematic scene, same French country road golden hour lighting, same 35mm film grain as previous scenes. A modern gleaming electric vehicle charging station on the roadside — ultra-clean white and green design, multiple EV charging points, large illuminated sign reading "RECHARGE ÉLECTRIQUE UNIQUEMENT" in bold green letters, with a secondary sign below: "ESSENCE : FERMÉ DÉFINITIVEMENT". The station looks brand new and spotless, absurdly out of place in the rural French countryside. No fuel pumps anywhere. A small sticker on the door reads "100% ÉCO". Warm golden sunset light, fields and hedges in background, same cinematic atmosphere as the rest of the film."

Créer les scènes détaillées

Nous intégrons ensuite les visuels pour créer les scènes dans Seedance 2.0. Celles-ci durent généralement 5 secondes. Nous choisissons l’aspect ratio de 16:9. Nous prenons le mode "Fast" pour la génération de vidéo. Il est plus rapide, comme son nom l’indique, et conserve une bonne qualité de rendu. Au niveau du prompt, notons que la fonction @video, proposée en Preview par la plateforme PiAPI au moment de notre utilisation, ne permettait pas d’enregistrer de vidéo pour utiliser le @video. Idem pour l’option "Extend", pas disponible pour gérer les transitions entre les scènes.

Par exemple, nous écrivons ceci, en anglais, pour une des scènes :

@image1A beat-up rusty yellow vintage car slowly drives past a closed, abandoned French gas station on a quiet village road. The gas station sign clearly reads "PLUS D'ESSENCE" in large bold red letters on a white board. The fuel pumps are covered with plastic tarps. The car moves from right to left across the frame, trailing a thin puff of black exhaust smoke from the tailpipe. The driver is barely visible through the cracked rear windshield. The car does NOT stop — it keeps driving past without slowing down, as if the driver hasn't noticed the station. Bright sunny summer afternoon, clear blue sky, hard shadows on the road. Static wide shot, camera does not move. Cinematic 35mm film grain. French provincial village atmosphere.

Il est possible d'inclure dans le prompt des instructions négatives. Pour la vidéo, la terminologie du cinéma, comme "Dolly-in", "Orbit shot" et "Hitchcock zoom" est comprise.

La vidéo est générée généralement en une dizaine de minutes. Cela peut durer davantage, notamment si le prompt n’est pas satisfaisant. Dans ce cas-là, mieux vaut recharger la page et écrire de nouvelles instructions. Les différentes vidéos générées sont montées sur CapCut, qui présente une version gratuite. Voici le résultat. Bien qu’imparfait, dû en partie à la prise en main en mode Preview, il est intéressant.

L'élément le plus frappant de cette production réside dans la stabilité structurelle. Malgré la complexité des environnements dépeints, l'IA parvient à conserver une homogénéité visuelle entre les plans. "Bob" reste identifiable et fidèle à sa morphologie initiale d'une scène à l'autre. Cela prouve l'efficacité des mécanismes de Character Consistency de Seedance. L'utilisation de visuels de référence a permis de verrouiller la direction artistique. Cela permet d’empêcher la dérive stylistique, souvent observée sur les modèles concurrents. La synchronisation labiale et la voix des personnages fonctionnent bien.

L'esthétique se rapproche d'un étalonnage professionnel. Le modèle interprète avec une grande fidélité les détails granulaires insérés dans le prompt (textures de la poussière, reflets sur les vitres des stations). L'expressivité émotionnelle du personnage est bien maîtrisée. Toutefois, le rendu n'est pas exempt de défauts techniques, notamment sur les transitions et les ruptures de format. Ces instabilités semblent moins liées aux limites intrinsèques de l'algorithme qu'à une courbe d'apprentissage nécessaire pour l'utilisateur.