Veo 3 vs Sora : comparatif des modèles de génération vidéo

Veo et Sora restent considérés par le marché comme les deux solutions de génération vidéo les plus abouties en juillet 2025.

Google est arrivé sur un marché sur lequel on ne l'attendait pas : l'IA générative de vidéo. Présenté lors de la Google I/O 2025, Veo 3 offre des rendus photoréalistes d'une qualité encore jamais atteinte auparavant. De quoi concurrencer Sora d'OpenAI ? Pas si sûr. L'esthétique proposée par Sora a encore son charme sur les prompts qui demandent une patte plus créative. Comparatif.

Veo 3 en 4K, Sora en 1080P

Fonctions	Veo 3	Sora
Résolution	4K, 1080p	1080p
Durée max.	8s 4K, 2m+ HD	20s
Génération audio	Oui	Non
Modalité supportée en input	texte, image	texte, image
Filigrane	SynthID	C2PA
API	Oui	Non

Veo 3 prend une longueur d'avance sur le plan technique: le modèle est capable de générer des vidéos en 4K, Sora se limite au 1080p. Veo 3 permet de générer 8 secondes maximum en 4K, mais plus de 2 minutes en 1080p pour les productions plus longues. Google intègre également la génération audio native, permettant de créer des vidéos complètes avec bande sonore synchronisée. En comparaison, Sora propose des vidéos muettes de 20 secondes maximum, obligeant les créateurs à ajouter l'audio en post-production.

Un pricing au prix fort chez Google

Les deux modèles adoptent des stratégies de prix radicalement différentes. Google propose Veo 3 à partir de 20€/mois avec le plan AI Pro. Il offre un accès à Veo 3 Fast, limité à 1080p et sans audio. Pour débloquer toute la puissance du modèle avec génération audio et résolution 4K, il faut passer au plan AI Ultra à 250€/mois. De son côté, OpenAI permet avec ChatGPT Plus à 20€/mois de générer 50 vidéos. ChatGPT Pro à 200€/mois permet un usage illimité. Veo 3 facture donc sa supériorité technique au prix fort.

Google propose une API officielle via Vertex AI qui permet aux développeurs d'intégrer Veo 3 directement dans leurs applications, à 0,75€ par seconde avec audio. OpenAI ne propose toujours pas d'API pour Sora, limitant drastiquement l'accès aux développeurs.

Dans ce comparatif nous allons uniquement nous atteler à comparer la qualité des vidéos générées, leur cohérence physique globale et leur fidélité au prompt. Il est en effet impossible de comparer les capacités de génération audio et de synchronisation labiale, Sora n'étant pas capable de les produire. Pour générer des prompts optimaux, nous utilisons un assistant GPT. Ce dernier prend en entrée la description de la scène attendue et génère en sortie le prompt optimal.

Un astronaute sur son cheval

Nous commençons avec une vidéo au prompt un peu complexe et qui fait également appel à des notions de physique. Nous demandons à l'IA de générer la vidéo d'un cosmonaute montant un cheval au galop dans le désert.

Prompt :

A silver mylar-clad astronaut riding a galloping horse through a vast desert at sunset.
The astronaut's suit is highly reflective, catching warm tones from the golden hour light. The horse is muscular and in full sprint, kicking up clouds of sand with each powerful stride. The desert environment is arid and expansive, featuring rolling dunes and distant rocky outcrops under a dramatic sky tinged with orange and purple. The scene has a cinematic depth of field, with soft foreground blur and crisp focus on the astronaut and horse.
Camera movement: smooth tracking shot from the side, slightly low angle to emphasize speed and heroism, dust particles trailing in slow motion.
Lighting: natural golden hour with high contrast and lens flares from the sun.
Style: cinematic, science-fiction surrealism, high-definition, ultra-detailed textures.
cinematic, high quality, ultra-detailed, golden hour lighting, desert landscape, slow motion, surreal, science fiction, mylar suit, heroic action, dramatic scenery.

Video générée par Sora :

Vidéo générée par Gemini :

La vidéo générée par Sora est graphiquement stylisée mais le sable soulevé par le passage du cheval est assez incohérent physiquement parlant. De même, l'apparition d'un second cavalier (non-demandée dans le prompt) est problématique. Veo 3 génère une vidéo parfaite au vu du prompt demandé et d'un réalisme poussé, mais légèrement moins stylisé visuellement.

Un plan macro d'une goutte d'eau en slow motion

Nous demandons ensuite aux modèles de générer la vidéo d'un plan macro d'une goutte d'eau qui tombe dans un verre d'eau en slow motion. Un prompt qui mesure précisément la capacité du modèle à gérer une scène physiquement cohérente.

Video générée par Sora :

Vidéo générée par Gemini :

Prompt :

A single droplet of water falling into a glass of water in extreme slow motion.

The scene is tightly framed, macro-level, focusing on the precise moment the droplet makes contact with the water surface. The impact creates concentric ripples and a high crown-shaped splash, with individual droplets suspended mid-air. The glass is crystal clear, filled halfway, placed on a reflective surface. The background is softly blurred with a minimalistic, studio-like setup.

Camera movement: static close-up shot with ultra-smooth focus pull to capture depth.

Lighting: high-key lighting with soft shadows and subtle highlights on the splash, enhancing the transparency and clarity of the water.

Style: hyper-realistic, macro photography aesthetic, slow-motion physics study. cinematic, high quality, ultra-detailed, macro, slow motion, transparent water, ripple effect, splash crown, realistic lighting, physics simulation.

Le résultat présenté par Sora est physiquement décevant. Le modèle ne semble pas comprendre la loi de la gravitation universelle. La goutte est comme figée par une force invisible dans l'air avant de retomber dans un liquide qui s'apparente plus à de l'étain en fusion que de l'eau. Veo 3 de son côté propose une vidéo physiquement réaliste. Deux légers problèmes viennent cependant gâcher le rendu final. Premièrement, la vidéo pose un problème d'adhérence au prompt : plusieurs gouttes sont générées et non une seule comme demandé dans le prompt. Enfin, plus problématique, la mise au point semble faite au mauvais endroit, résultat la scène est légèrement floue.

Un traveling avant doublé d'un time-lapse

Plus compliqué, nous demandons maintenant à Veo 3 et Sora de générer un plan complexe mais régulièrement présent dans de nombreux films : un effet travelling avant sur un personnage fixe, avec environnement en accéléré.

Video générée par Sora :

Vidéo générée par Gemini :

Prompt :

Forward dolly shot of a 30-year-old woman standing still at the center of Times Square during daytime. The environment around her is in fast motion: people walking, running, cycling in all directions, creating a time-lapse effect. The woman remains calm and sharply in focus, wearing modern urban clothing. Neon signs, giant billboards, and taxis contribute to the dynamic atmosphere. The lighting is natural daylight with strong shadows and reflections from the glass surfaces. Cinematic depth of field with bokeh in the background. High-resolution image with realistic textures, detailed crowd movement, and smooth camera motion. cinematic, time-lapse background, realistic crowd dynamics, shallow depth of field, high quality, forward dolly, hyperrealism, urban scene, motion blur on background, dynamic environment

La vidéo générée par Sora est assez proche du prompt original. Toutefois plusieurs éléments rendent la scène assez incohérente : le personnage principal semble taper du pied, comme si l'IA n'était pas parvenue à le fixer parmi l'ensemble de la foule en mouvement. Enfin, la foule et les véhicules à l'arrière-plan vont tous dans le même sens. La scène proposée par Veo 3 est, encore une fois, la plus cohérente physiquement et la plus réaliste. La vidéo respecte parfaitement le prompt. Les couleurs sont toutefois moins denses que celles proposées par Sora.

Une scène complexe

Pour la quatrième et dernière vidéo de ce comparatif, nous demandons aux modèles de générer une vidéo en trois séquences. Le but ? Pousser au maximum le curseur pour tester l'adhérence au prompt. L'IA devra générer une vidéo où un homme tape avec une petite cuillère sur un bol contenant de la pâté pour chat dans une cuisine moderne, puis où l'on voit le chat accourir dans le couloir avant de se jeter sur sa gamelle pour manger.

Prompt :

Scene 1: Inside a sleek, modern kitchen with minimalist white cabinetry, matte black fixtures, and soft natural lighting, a man gently taps a small silver spoon against a ceramic bowl filled with cat pâté. The kitchen is quiet and pristine, with light bouncing softly off the polished surfaces. The camera is at countertop level, focusing on the bowl and the man's hand, creating a shallow depth of field with the background slightly blurred.

Scene 2: From a connected hallway in the same contemporary home—same flooring, consistent lighting style—a domestic short-haired tabby cat, with distinctive gray and white markings, suddenly darts into frame. The camera uses a low tracking shot to follow the cat dynamically as it runs toward the kitchen, preserving spatial continuity and orientation.

Scene 3: The same cat eagerly pounces on its bowl of pâté in the kitchen. The camera cuts to a close-up from the side, showing detailed textures of the cat's fur, the movement of its head as it eats, and the sheen of the pâté. Lighting remains soft and natural, with sunlight from a nearby window casting warm highlights across the scene. The environment and cat remain exactly the same as in previous scenes for narrative and visual continuity.

Technical specifications: cinematic lighting, consistent environment, 4K resolution, photorealistic rendering, shallow depth of field, smooth realistic motion

Motion and dynamics: gentle tapping and static framing in Scene 1, fast-paced camera tracking in Scene 2, close-up energetic detail in Scene 3

cinematic, photorealistic, high quality, consistent character design, detailed environment, dynamic camera, realistic lighting, smooth animation

Video générée par Sora :

Vidéo générée par Gemini :

Pour cette vidéo encore plus complexe, Sora déraille. Le modèle d'OpenAI ne parvient pas à modéliser la première scène (un homme tape avec une petite cuillère sur un bol). Par la suite le chat dans le couloir est, de façon surprenante, capable de traverser les murs et enfin pour la troisième partie, le chat a de réelles difficultés pour manger sa pâtée. La scène est globalement peu cohérente et non exploitable. De son côté, Veo 3 propose une seule frame pour la première scène (une image fixe), sans que l'on sache pourquoi. Le reste de la scène est ensuite assez cohérent.

Veo 3, un modèle plus polyvalent

Veo 3 s'impose comme le générateur vidéo le plus abouti. Google a réussi son pari en développant un modèle qui excelle dans le respect des lois physiques et la cohérence narrative. Veo 3 démontre une compréhension supérieure de la réalité physique.

Sora conserve néanmoins un atout non négligeable : son esthétique particulièrement soignée et séduisante. Le modèle d'OpenAI propose un rendu visuel plus "léché" qui peut séduire pour des créations simples privilégiant l'impact visuel sur la précision physique. Pour les professionnels cherchant à créer du contenu vidéo réaliste et techniquement irréprochable, Veo 3 s'impose comme le choix évident, malgré ses, tarifs plus élevés.