Google Veo 2 vs Sora d'OpenAI : quel est le meilleur modèle de génération vidéo ?

Les deux éditeurs américains proposent des modèles de génération vidéo à l'état de l'art. Prix, performances, réalisme… Comparatif de Veo 2 et Sora.

C'est un marché en pleine éclosion. La génération de vidéo à partir de prompt commence à se développer petit à petit au fil de l'amélioration des modèles fondation. Dominé par les acteurs chinois dans un premier temps, le marché a vu arriver ces derniers mois de nouveaux poids lourds américains. Finalement dévoilée en décembre 2024 par OpenAI, Sora est devenue un incontournable. Quelques jours plus tard, Google dévoilait à son tour sa solution maison : Veo 2. Un modèle légèrement supérieur à celui d'OpenAI selon le classement des utilisateurs du Video Arena d'Artificial Analysis. Prix, qualité, réalisme, durée des productions… Comparatif de ces deux titans de l'IA vidéo.

Des approches techniques différentes

Veo 2 repose sur un système en cascade de plusieurs modèles de diffusion. Un modèle de base génère d'abord une vidéo basse résolution à partir du prompt utilisateur. Des modèles de super-résolution spatiale améliorent ensuite la qualité visuelle. Enfin, des modèles d'affinement temporel garantissent la cohérence entre les images. Cette architecture permet à Veo 2 d'exceller dans la reproduction des principes physiques du monde réel. Concrètement, cela se traduit par des mouvements plus naturels, des interactions plus crédibles entre objets, et une meilleure compréhension des lois de la physique dans les vidéos générées. Google met particulièrement en avant la capacité de Veo 2 à comprendre "le langage unique de la cinématographie" : le modèle interprète correctement les instructions relatives aux objectifs, angles et mouvements de caméra.

D'après l'analyse des chercheurs de l'Université Lehigh (Pennsylvanie), Sora utilise une architecture radicalement différente. Alors que Google utilise plusieurs modèles en cascade, Sora s'appuie sur un unique transformer de diffusion préentraîné avec des capacités d'échelle flexible (le modèle peut traiter des vidéos de différentes dimensions sans les standardiser). A l'inverse, les approches classiques comme celle potentiellement utilisée par Veo 2 tendent à standardiser les formats (conversion en carrés, résolutions fixes), pouvant occasionner des pertes d'information ou des distorsions lors du rendu final. En clair, dans la théorie, Sora peut générer une vidéo verticale pour TikTok, une horizontale pour YouTube ou une carrée pour Instagram sans compromis sur la composition visuelle ou la qualité.

Le test du JDN

Dans la pratique, les modèles de Google et d'OpenAI sont finalement assez proches. Selon nos différents tests, OpenAI propose un rendu plus photoréaliste que Veo 2. En revanche, le modèle de Google propose des vidéos physiquement plus crédibles.

Nous demandons par exemple à l'IA de générer une séquence vidéo simple d'une Tesla roulant sur les Champs-Elysées au coucher du soleil. Veo 2 propose un traveling arrière de la voiture avec un rendu global assez crédible. Sora génère, de son côté, une vidéo encore plus réaliste avec une vue aérienne assez belle.

Prompt :

Tesla Model 3 sleek electric car, driving slowly down Champs-Élysées Paris, golden sunset light, Arc de Triomphe visible in background, cinematic atmosphere, reflections on car surface, pedestrians turning heads, warm orange glow, iconic Parisian architecture, high-end fashion stores, mild traffic, 8K ultra HD, cinematic drone shot following car, realistic lighting, photorealistic quality, smooth tracking shot.

Veo 2 :

"Tesla Model 3 - Veo"

Sora :

"Tesla Model 3 - Sora"

Pour notre second test, nous demandons aux modèles de générer l'atterrissage d'un avion A380 sur une piste de l'aéroport Charles de Gaulle pendant un orage. Les deux IA semblent avoir du mal à générer le moment exact du touchdown. Veo 2 génère une vue véritablement crédible de l'avion en phase de roulage avec des éclairs assez réalistes. De son côté, Sora produit une vidéo un slow-motion de l'avion survolant la caméra (virtuelle). L'instant semble figé : les éclairs sont fixes et le tout est globalement peu cohérent. Le modèle génère également un élément assez inattendu : un jet d'eau puissant sortant tout droit de l'avion. Le tout est assez graphique mais peu réaliste.
Prompt :

Massive Airbus A380 aircraft landing at Charles de Gaulle Airport Paris, dramatic summer thunderstorm, lightning flashes illuminating dark skies, rain streaking across runway, tarmac reflecting puddles, airplane lights cutting through storm, water spray from landing wheels, cinematic slow motion, airport control tower visible, other planes waiting, industrial airport atmosphere, wet reflective surfaces, blue-purple storm lighting, 8K ultra HD, dynamic camera movement following aircraft descent, realistic thunder sound design, photorealistic quality, dramatic tension.

Veo 2 :

"Airbus A380 - Veo"

Sora :

"Airbus A380 - Sora"

Pour notre troisième, nous demandons à Veo 2 et Sora de générer une vidéo cartoonesque de deux souris conduisant une voiture à Paris près de la tour Eiffel. Le résultat est globalement satisfaisant des deux côtés. Le réalisme revient toutefois à Veo 2 de Google qui génère un style cartoon plus proche que celui d'OpenAI, davantage ressemblant à une simulation 3D.

Prompt :

Two mice drive a car on the Paris ring road, with the effiel tower in the background, cartoon-style.

Veo 2 :

"Mice - Veo"

Sora :

"Mice - Sora"

Enfin, pour notre dernier test, nous demandons aux IA de générer le traveling arrière d'un cowboy sur son cheval dans la Death Valley aux Etats-Unis. Les deux modèles produisent des résultats plus que réussis. Le physique et l'allure générale du cowboy sont crédibles. Sora produit le meilleur résultat avec une scène qui pourrait presque être issue d'un film. Veo 2 choisit de cadrer plus proche du cowboy. Les deux modèles manquent encore de suivi de la consigne exact : le traveling arrière n'est respecté dans aucune des deux versions.

Veo 2 :

"Cowboy Veo 2"

Sora :

"Cowboy Sora"

Prompt :

A rugged cowboy riding horseback through Death Valley, California. Wide cinematic shot with the camera slowly tracking backwards to reveal the vast, desolate landscape. Golden hour lighting casts long shadows across the desert floor. The cowboy wears a traditional Stetson hat, weathered leather vest, and has a determined expression. His horse kicks up small clouds of dust as they traverse the iconic cracked earth and salt flats. Mountains loom in the background against a clear blue sky with scattered clouds.

Quel est le meilleur modèle ? Comme nous l'expliquions précédemment, les deux modèles ont chacun leurs forces et faiblesses. Veo 2 génère des vidéos souvent plus réalistes grâce à un respect plus fidèle des lois de la physique. Sora produit, en revanche, des vidéos plus photoréalistes.

Disponibilité et prix

Sora d'OpenAI a pris une longueur d'avance en termes d'accessibilité en Europe, étant désormais disponible pour les utilisateurs français et européens, tandis que Veo 2 de Google n'est pas encore accessible en France officiellement. Pour accéder à Sora, les utilisateurs disposent de deux options tarifaires : l'abonnement ChatGPT Plus à 20€/mois offrant une qualité limitée à 720p et 10 secondes par vidéo, ou la formule Pro à 200€/mois qui permet la génération de vidéos en qualité supérieure (jusqu'à 1080p et 20 secondes) avec téléchargement sans filigrane.

Du côté de Google, Veo 2 devrait être proposé via deux canaux principaux : VideoFX pour les créatifs et Vertex AI pour les développeurs souhaitant une intégration par API. En termes de tarification, Google a adopté un modèle de paiement à l'usage, facturant 0,50$ par seconde de vidéo générée (soit environ 30$ la minute), un modèle potentiellement plus avantageux pour les utilisations ponctuelles, mais qui peut rapidement devenir onéreux pour une utilisation intensive.

Si Sora d'OpenAI se distingue par son photoréalisme supérieur et sa disponibilité immédiate en France avec des formules d'abonnement claires, Veo 2 de Google impressionne par sa maîtrise des lois physiques et son rendu plus crédible des mouvements et interactions. Le choix entre les deux modèles dépendra essentiellement des besoins spécifiques des utilisateurs : les professionnels recherchant une qualité visuelle exceptionnelle pourront privilégier Sora, tandis que ceux nécessitant des simulations physiquement réalistes se tourneront vers Veo 2. Les deux modèles peuvent servir pour créer rapidement des séquences de transition entre deux scènes sans aucun problème.