Comment nous avons créé une vidéo publicitaire avec Kling
Il n'y a pas que Seedance 2 dans la vie : d'autres modèles sont également excellents pour la production de contenus vidéos, et notamment publicitaires. C'est le cas de Kling, qui se distingue par sa capacité à maintenir une cohérence visuelle sur plusieurs plans. L’outil se base sur une technique avancée d’apprentissage profond : un mécanisme d'attention spatio-temporelle 3D et un modèle transformer de type diffusion. A l’aide d’un simple prompt, il extrait des représentations qui servent de point de départ pour le mécanisme d'attention spatio-temporelle 3D. Au niveau spatial, le modèle s’assure que chaque image est visuellement correcte. Au niveau temporel, il recherche des transitions fluides et logiques entre les images. Le modèle intègre également des techniques de reconstruction 3D du visage et du corps humain. Cela peut amener des mouvements de caméra intéressants pour des vidéos courtes sur les réseaux sociaux. De son côté, Kling O, récemment sorti, est un modèle vidéo IA multimodal unifié. Il combine génération, itération et édition de l’image ou de la vidéo. Cela doit simplifier le flux de travail.
Nous avons voulu tester cela en créant une courte publicité pour une marque de balles de tennis fictive, appelée "Dupont".
6 euros par mois et des crédits à acheter
Rendez-vous sur Kling AI. Depuis le 31 décembre dernier, il est possible d’utiliser Vidéo O1 et Vidéo 2.6, avec le voice control. Ce plan permet notamment de générer des vidéos en haute définition en 1080p.
L’inscription à Kling AI offre quelques crédits. Le plan standard, à environ 6 euros par mois, donne droit à 660 crédits par mois. Cela permet de générer une dizaine de vidéos en moyenne, selon les options choisies. Les autres plans s’échelonnent de 26 à 127 USD par mois. D’après notre expérience et des retours clients, le système de crédits est complexe. Il est possible d’en acheter des supplémentaires séparément. Au vu de certains problèmes rencontrés dans les générations de vidéos, cela peut vite devenir relativement onéreux, pour les débutants surtout. Pour donner un ordre d’idée, Runway, qui offre un contrôle créatif avancé et un contrôle caméra précis, propose un tarif de base à environ 15 USD par mois. OpenAI Sora, intégré à ChatGPT, facture à 20 USD par mois. Creatify AI, qui génère des avatars IA pour publicités, est à environ 39 euros par mois.
Omni gregi dux est
Une fois sur l’interface, cliquez sur "Omni does it all". Cette section réunit dans un seul endroit le générateur d’image et de vidéo, ce qui est pratique. Afin de créer notre clip d’environ 10 secondes, notre stratégie est de créer 3 clips séparés que nous allons monter ultérieurement. Cela doit offrir un meilleur contrôle créatif sur chaque scène. Pour cela, nous allons générer des images et des vidéos correspondant aux différents plans.
Le scénario est volontairement simple, vu notre maîtrise de l’outil. Dans le premier plan, une balle de tennis rebondit sur un terrain de tennis. Une fois au sommet du rebond, elle prend la majeure partie de l’écran, avec un fond noir derrière. A la fin de ce clip apparaît le slogan de notre marque fictive "Dominez le rebond". Cette publicité est censée passer sur certains réseaux sociaux. Notons que nous n’avons que peu intégrer le tennisman dans celle-ci, car différentes anomalies de mouvement, ou encore de synchronisation avec la balle de tennis, se sont multipliées durant nos essais.
Première étape, nous allons d’abord créer l’image du joueur de tennis, avec ce prompt, en anglais, le français n’étant pas pris en charge par Kling :
"Professional male tennis player, athletic build, 25 years old, short dark hair, intense focused expression, white Nike tennis outfit with yellow accents, holding a professional tennis racket, standing on red clay court, golden hour lighting, cinematic sports photography, full body shot, 8K quality, ultra-realistic"
Parmi les 4 choix proposés, nous choisissons celui-ci. Le prompt a été globalement respecté.

Nous créons ensuite l’image de la balle de tennis "Dupont". Le prompt est :
"Professional tennis ball close-up, bright yellow-green color, visible felt texture and brand logo "Dupont" printed clearly, product photography, studio lighting, white background, ultra-detailed macro shot, 8K quality, commercial product shot"
Parmi les images proposées, nous choisissons la seule où le mot "Dupont" est correctement écrit.
Notons en effet que le générateur de texte de Kling est peu fiable. Nous passerons d’ailleurs par CapCut pour finaliser le montage et intégrer l’élément textuel.
Nous générons ensuite un troisième visuel, avec le court de tennis en terre battue :
"Professional red clay tennis court, service box clearly marked with white lines, net in background, golden hour lighting, warm terracotta tones, cinematic sports photography, wide angle shot, 8K quality"
L’image intègre globalement bien les exigences de notre prompt.
Des vidéos expressives
Pour générer les vidéos, direction le générateur de Kling. Celui-ci, grâce à une stratégie d'entraînement à résolution variable et à une base de données certainement conséquente, permet de générer les vidéos dans un grand nombre de formats : 9/16, 1/1 et 16/9. Ce premier format étant par exemple idéal pour TikTok. Il est aussi possible de rajouter du son, ce que nous ferons avec CapCut dans notre cas.
La première vidéo doit montrer une balle "Dupont" rebondir sur un terrain de tennis. Le tout de façon très cinématographique et avec une image de qualité. Pour cela, nous téléchargeons l’image de la balle et écrivons un prompt. Il est possible d’éviter de générer certains éléments avec le mot "avoid" :
"@Image1@Image Cinematic slow-motion shot of a Dupont tennis ball striking the red clay court surface in the service box. The ball hits the ground with dramatic impact, creating an explosion of golden clay dust particles that fly upward in all directions. The dust catches the golden hour sunlight, creating a spectacular visual effect. The ball then bounces high into the air with natural physics. The white service box lines are clearly visible on the terracotta clay court. The ball hit is in the court. We can see the tennisman behind the net who has just hit the ball. Professional sports cinematography, ultra-slow motion (240fps feel), dramatic lighting, warm color grading, 1080p quality. Camera movement: Low-angle tracking shot following the ball's descent, then tilting up to follow the bounce. Style: Epic sports commercial, Nike/Adidas aesthetic, cinematic and inspiring, TV advertisement quality. Avoid : two tennis balls, blurred image, low ball bounce, low resolution."
La vidéo respecte globalement les consignes.
Nous récupérons après cela dans la vidéo l’image de la balle en l’air et demandons une transition avec l’image de la balle seule. Il est possible d’itérer à cette étape. Le prompt est simple :
"@Image3@Image2 Transition from image2 to image3 in a cinematic way, for a publicity. At the end, the ball must be centered on a black background. The word “Dupont” is clearly visible on it."
La vidéo générée reprend correctement les recommandations
Gare aux informations et images fournies
Nous allons directement sur CapCut, qui propose une offre d’essai gratuite d’une semaine, pour monter les vidéos et ajouter le texte à la fin et un son. Après quelques essais, voici le résultat final :
Si le rendu n’est pas parfait, notamment avec la trajectoire de la balle et le copyright en bas à droite, cela est tout de même intéressant et prometteur. Une certaine cohérence a lieu entre les différents plans. Signalons que pour les débutants, les différents tests peuvent engendrer un certain coût. Notons aussi qu’au niveau de la sécurité, Kling AI reconnaît qu'il ne peut pas garantir la sécurité des données et se décharge de toute responsabilité en cas de violation. Le téléchargement de données sensibles ou de visages identifiables est à éviter.