Gemini Omni : que vaut vraiment la génération et l'édition vidéo de Google ?

Gemini Omni est le premier modèle "any-to-any" de Google : il comprend et génère du texte, de l'image, de l'audio et de la vidéo de manière native. Nous avons testé ses capacités de génération et d'édition vidéo.

Le nouveau modèle de Google, Gemini Omni, se distingue par sa capacité à traiter simultanément plusieurs types de médias (texte, image, audio, vidéo) sans passer par des modèles intermédiaires. Cette approche permet non seulement de générer des vidéos à partir de simples descriptions textuelles ou d'images, mais aussi d'éditer des séquences existantes avec précision.

Une interface de génération classique

Pour nos premiers tests, nous avons exploré l'application grand public de Gemini. Il est désormais possible de fixer le ratio d'aspect de son clip (paysage ou portrait) avant de lancer la génération pour éviter les approximations. L'interface propose également des modèles prédéfinis permettant d'appliquer instantanément un style graphique particulier.

L’interface d’accueil de génération vidéo permet de choisir son format d'affichage (paysage ou portrait) et de s'appuyer sur des styles prédéfinis. © Capture d'écran / JDN

Modifier des vidéos

L'avantage principal de Gemini Omni est de pouvoir modifier une vidéo existante en langage naturel, en ajoutant, supprimant ou transformant des éléments spécifiques d'une scène sans avoir à régénérer ou retravailler l'ensemble de la séquence. Il suffit de décrire ce que l'on souhaite changer, et le modèle s'occupe du reste en préservant la cohérence visuelle du reste de la vidéo.

Le prompt :

Le début de la vision futuriste a l'air figé, puis s'anime au fur et à mesure de la montée. Pour un résultat plus réaliste, nous aurions pu insérer une image du monde futuriste que nous souhaitions.

Remplacement d'un objet par une image de référence

Remplacer un élément visuel dans une vidéo existante en fournissant une image de référence est un cas concret particulièrement utile pour les équipes qui souhaitent intégrer un produit dans une scène réelle. A noter : dans l'application Gemini grand public, les fonctionnalités d'entrée audio et vidéo sont actuellement bloquées dans l'Espace Économique Européen (EEA) pour des raisons réglementaires (RGPD, AI Act). Ces restrictions peuvent être partiellement contournées en utilisant Google Flow, accessible via l'abonnement Google AI Pro.

Le prompt :

Le résultat est qualitatif tant au niveau visuel que sonore, le souci est qu'Omni a compris qu'il fallait remplacer tous les taxis par cette voiture de luxe…

Modifier une scène

Dans cet exemple, nous allons transformer un plan ensoleillé de New York en une scène de tempête.

Le prompt :

A l'observation du résultat, si Gemini respecte globalement les consignes imposées par le prompt, la qualité visuelle de certains éléments laisse encore à désirer. Les éclairs générés manquent de réalisme et l'animation de l'eau apparaît artificielle.

Génération audio synchronisée

L'autre force de ce modèle any-to-any réside dans sa capacité à générer du son synchronisé avec l'action à l'écran. Pour le vérifier, nous avons généré une séquence montrant un ordinateur portable s'ouvrant sur un bureau minimaliste, en décrivant dans le prompt le bruit de la charnière, un son de démarrage et un bruit de fond d'open-space.

Le résultat audio est mitigé : bien que les bruitages demandés soient présents, les bruits de clavier commencent trop tôt.

De photo à vidéo

C'est l'un des points les plus intéressants avec Gemini Omni : on peut lui fournir des photos comme point de départ pour générer une vidéo animée. Ici, nous lui avons fourni des images d'un lieu afin d'avoir une vidéo 360° de celui-ci.

L’importation d’images de référence permet à Gemini Omni de modéliser un lieu réel pour générer une vidéo animée°. © Capture d'écran / JDN

Le rendu final est visuellement convaincant, offrant une belle fluidité entre les images. Néanmoins, l'outil n'a pas réussi à générer la rotation complète à 360 degrés qui lui était demandée, se contentant d'un panorama partiel.

Au-delà de l'animation de lieux, cette capacité à générer des vidéos à partir d'images fixes trouve une application particulièrement pertinente dans le domaine de la publicité. Ici, nous avons voulu tester la création d'une vidéo à partir d'une chaussure de sport.

Le prompt :

À partir de l'image de cette chaussure de sport, crée une vidéo dynamique de 10 secondes en haute définition. La chaussure doit flotter élégamment au centre de l'écran avec une légère rotation lente pour montrer ses détails sous différents angles. Pendant toute la durée de la vidéo, l'arrière-plan doit changer rapidement et fluidement entre trois environnements urbains distincts :

Une rue en asphalte urbaine diurne avec des bâtiments modernes et des ombres nettes
Un terrain de basket extérieur avec des lignes colorées et un panier en arrière-plan
Des néons de nuit vibrants dans une rue de ville avec des reflets lumineux sur le sol mouillé

La chaussure doit rester parfaitement stable et nettement focalisée tandis que l'arrière-plan transitionne avec des effets de fondu rapide. Ajoute un léger effet de mouvement de caméra (zoom avant/arrière) pour renforcer le dynamisme. Le style visuel doit être cinématographique avec un éclairage professionnel qui met en valeur les textures et les couleurs de la chaussure.

Le résultat est qualitatif, même si les transitions pourraient être plus fluides. La chaussure est, en revanche, totalement fidèle à l'image transmise.

Créer un double numérique

Gemini Omni permet de créer un double numérique : un clone IA de votre visage et de votre voix, utilisable dans toutes les vidéos générées. Cette fonctionnalité n'est, pour le moment, pas disponible dans l'EEA (dont la France), ni au Royaume-Uni ni en Suisse.

La création de ce clone numérique s'effectue directement depuis l'application Gemini. L'utilisateur est invité à scanner son visage sous plusieurs angles à l'aide de la caméra frontale, puis à lire quelques phrases à voix haute pour modéliser sa voix. Une fois généré, cet avatar est associé au compte Google de l'utilisateur sous la forme d'un tag (par exemple @nom). Il devient alors extrêmement simple de l'intégrer dans n'importe quelle vidéo en mentionnant simplement ce tag dans le prompt de génération.

Des séries de clips avec un même personnage

Gemini Omni permet d'importer des éléments visuels (personnages, lieux ou objets) afin de garantir une cohérence graphique tout au long d'une production. Dans cet exemple, nous utiliserons Google Flow, un outil de production IA développé par Google Labs, qui utilise Omni. Google Flow est disponible pour les abonnés payants et utilise un système de crédits.

Etape 1 : créer l'image de référence du personnage

Avant tout, il faut générer une image de référence propre du personnage avec Nano Banana. Pour que le personnage généré soit efficace, utilisez un fond uni (de préférence blanc), demandez des photos de face et de profil pour améliorer la qualité finale de la vidéo, et veillez à ce qu'aucune autre personne ou visage n'apparaisse dans l'image.

L’outil de montage intégré à Flow permet d’agencer les clips générés sur une timeline et d’éditer la séquence sélectionnée via l’agent. © Capture d'écran / JDN

Etape 2 : générer les clips pub un par un

Pour chaque clip, rappeler le personnage via @personnage (@sophie dans notre exemple) dans le prompt, avec le modèle Omni activé. Il faut ensuite glisser le produit. L'avantage avec Google Flow, c'est que l'on peut choisir la durée, le modèle, le nombre de versions que l'on souhaite et l'orientation souhaitée.

Voici les prompts que nous avons testés afin de créer une publicité, en suivant cette structure :[Cadrage] + [@Personnage] + [Action] + [Décor] + [Style & Ambiance] + [Audio].

Clip 1

Clip 2

Clip 3

Clip 4

Attention à toujours glisser le personnage et le produit dans chaque message sur Flow, sinon l'outil peut utiliser un autre personnage. Il y a toujours des incohérences dans les décors si l'on génère plusieurs vidéos dans un même lieu, l'IA n'en a pas forcément la notion. Une bonne idée est de créer un storyboard avec Nano Banana afin de générer des lieux et personnages cohérents tout au long de la vidéo.

Flow intègre directement un outil de montage, où l'on peut insérer les différents clips générés, et les modifier directement avec l'agent. Pour l'instant, il n'est possible de modifier qu'une vidéo à la fois, qu'il faut bien sélectionner.

Des vidéos avec filigrane

Toutes les vidéos produites par Gemini Omni intègrent désormais la technologie SynthID, développée par Google DeepMind. Ce filigrane numérique est injecté directement dans les pixels de chaque image lors de la génération. Contrairement aux marquages visuels classiques qui peuvent être recadrés ou effacés, cette signature reste détectable même après des modifications comme la compression ou le recadrage.

Nous avons testé avec une de nos vidéos générées, et Gemini reconnaît bien sa création.

La vérification peut se faire directement avec Gemini. © Capture d'écran / JDN

Tarification et accès

Trois niveaux d'abonnement donnent accès à Gemini Omni. L'offre gratuite permet d'utiliser Gemini Omni Flash dans l'application standard, avec des restrictions géographiques pour les fonctionnalités vidéo et audio. L'abonnement Google AI Pro (21,99 €/mois) débloque l'accès complet à Google Flow. Enfin, Google AI Ultra (99,99 €/mois) offre des quotas étendus et un accès prioritaire aux derniers modèles. Gemini Omni Flash est disponible pour tous les abonnés, mais Gemini Omni Pro, la version la plus puissante, n'a pas encore de date de disponibilité confirmée.

Gemini Omni marque une étape réelle dans la création vidéo par IA. Son approche multimodale (texte, image, audio, vidéo) dans un seul modèle, simplifie des processus qui nécessitaient jusqu'ici plusieurs outils distincts. Sur nos tests, la génération et l'édition de vidéos à partir d'images de référence sont convaincantes, et la création de personnages récurrents via Google Flow ouvre des perspectives sérieuses pour la production de contenus en série.