Sora 2 vs Veo 3.1 : quelle est la meilleure IA pour la génération vidéo ?

Sora 2 vs Veo 3.1 : quelle est la meilleure IA pour la génération vidéo ? Nous avons comparé les performances des derniers modèles de génération vidéo d'OpenAI et de DeepMind sur la qualité et la précision des vidéos générées. Les résultats sont intéressants.

Qui de Google (DeepMind) ou d'OpenAI propose le générateur de vidéo le plus performant ? Les éditeurs américains proposent les deux meilleurs modèles de génération vidéo du marché (avec Kling, selon les benchmark). OpenAI a présenté son modèle Sora 2 le 30 septembre dernier, alors que Google a dévoilé la dernière mise à jour 3.1 de son modèle Veo le 15 octobre. Nous avons testé les deux modèles sur la génération de vidéo sur 4 scénarios différents.

Sora 2, Veo 3.1 : deux modèles à la pointe du réalisme

Sora 2 excelle maintenant en réalisme. Les chercheurs d'OpenAI ont entraîné spécifiquement le modèle à comprendre le monde et les différentes forces qui s'appliquent sur Terre pour tenter de produire des vidéos les plus fidèles possibles à la réalité. La V2 intègre des effets sonores synchronisés et des dialogues. Toutes les vidéos produites par Sora sont watermarkées par un filigrane invisible en plus de classification dans les métadonnées C2PA. Le modèle peut générer des vidéos en 4k (3840×2160) jusqu'à 25 secondes.

De son côté, avec Veo 3.1, un modèle à diffusion latente, Google DeepMind mise à la fois sur le réalisme et sur le respect des consignes initiales (adhérence au prompt). En théorie, c'est l'un des meilleurs modèles en suivi des instructions. Comme Sora 2, il est capable de générer des effets audio et des dialogues. Avec la version 3.1, l'audio est plus riche et détaillé. Les vidéos produites sont watermarkées avec le filigrane (invisible) SynthID. Veo 3.1 produit des vidéos jusqu'en 1080P de 8 secondes avec une extension de la vidéo déjà générée jusqu'à 7 secondes (20x) soit une durée maximale de 148 secondes.

Le test du JDN

Dans le cadre de cet article, nous allons tester uniquement les capacités de Veo et Sora en génération de vidéo text-to-image. Nous ne testerons pas les capacités d'édition vidéo, qui restent encore incomplètes et inaccessibles pour la majorité des utilisateurs. Nous nous pencherons également le design sonore accompagnant les vidéos mais cette fonctionnalité n'en est encore qu'à ses débuts et reste très imparfaite.

Un traveling

Pour le premier test, nous demandons aux IA de générer une scène cinématographique simple :  un golden retriever courant sur une plage de sable humide au coucher du soleil. La caméra suit le chien avec un travelling. Le but est de comparer finement le réalisme des mouvements de caméra, du chien et des reflets de l'eau.

Prompt :

A realistic cinematic video of a golden retriever running along a wet sandy beach at sunset.

The dog leaves footprints in the sand and splashes water as waves reach the shore.

Reflections of the orange sky shimmer on the wet sand.

The camera follows with a smooth handheld tracking shot at low angle, 24 fps, natural lighting, 4K.

La vidéo produite par Veo :

La vidéo produite par Sora :

Sur le suivi des instructions, les deux modèles parviennent à reproduire assez fidèlement les différentes demandes. En revanche, sur le réalisme pur, le mouvement du chien proposé par Sora est anormal, comme si la scène était filmée en slow motion. La texture générale de la matière (du sable, de la mer) n'est pas, non plus, réaliste. Veo 3.1 propose un rendu tout à fait réaliste et conforme à nos attentes. Sur la qualité des reflets, les deux modèles sont à égalité : le soleil se reflète avec crédibilité dans la mer. Enfin sur la physique pure, Veo gagne encore : les éclaboussures des pattes de chien au contact de l'eau sont parfaitement reproduites. Sur la partie sonore, Veo gagne sans conteste, Sora produisant un son métallique et très peu crédible des halètements du chien.

Un plan POV

Pour ce second test, nous faisons générer à Veo et Sora la vidéo d'une dashcam, montrant une voiture roulant sur une route forestière brumeuse au coucher du soleil. Alors que la voiture négocie un virage en douceur, un cerf apparaît brièvement sur le bord de la route, observant calmement avant de s'éloigner dans les arbres. Le but est de tester la perception du mouvement rapide et l'arrivée d'un élément nouveau.

Prompt :

A cinematic dash-cam style video showing a car driving through a misty forest road at sunset.

The headlights illuminate the fog and reflect on the wet asphalt.

As the car rounds a gentle curve, a deer appears briefly on the roadside, watching calmly before walking away into the trees. The car slows slightly, maintaining a smooth motion as golden light filters through the mist. Realistic lighting, motion blur, dynamic reflections, 24 fps, 4K.

La vidéo produite par Veo :

La vidéo produite par Sora :

Le résultat s'avère particulièrement intéressant. Sur le plan du respect des instructions initiales, Sora prend l'avantage : l'IA d'OpenAI suit environ 80% des consignes données. A l'inverse, Veo introduit une légère liberté d'interprétation en générant deux cerfs, dont l'un s'élance vers la route plutôt que vers les arbres, comme demandé. La voiture s'arrête également sur le bas-côté, ce que nous n'avions pas demandé. L'IA de Google choisit donc de réinterpréter la scène à sa manière.

Côté réalisme, les deux modèles livrent des rendus convaincants, mais avec des approches distinctes : Veo propose une route parfaitement dégagée et une cohérence globale jusque dans la conduite, tandis que Sora opte pour une atmosphère plus dramatique, avec une route sinueuse et un brouillard dense. Sora se distingue par un détail visuel subtil : le reflet de la planche de bord sur le pare-brise, qui renforce la crédibilité de la scène.

Sur la texture et le rendu des éléments, Sora joue la carte du réalisme en laissant deviner le cerf dans la brume plutôt que de le montrer entièrement. Veo, à l'inverse, propose une image trop nette et détaillée, aux contours presque artificiels : des cerfs si parfaits qu'ils évoquent des images de synthèse.

Enfin le paysage audio est globalement crédible dans les deux scènes. Attention toutefois, selon nos tests, Sora a tendance à générer des musiques d'ambiance sans cela soit demandé dans les instructions initiales.

Un plan en apesanteur

Nous demandons ensuite à l'IA de générer une vidéo créative d'un astronaute préparant du café en apesanteur avec des gouttelettes de café flottant dans l'air. Le but est de mesurer le degré de réalisme des modèles et leur compréhension des forces en présence.

Prompt :

Inside a space station, an astronaut in a white spacesuit prepares coffee in zero gravity.

Coffee droplets float and merge in the air, tools and cups drift slowly around. Soft morning light enters through the window showing Earth below. Smooth camera movement, high-detail textures, realistic lighting and reflections, 24 fps, 4K.

La vidéo produite par Veo :

La vidéo produite par Sora :

Là encore, Sora et Veo offrent deux visions bien différentes. Sur le plan physique, la version de Sora est la plus crédible. Le café y apparaît sous forme d'un amas de particules compactes, conforme à ce que l'on pourrait observer en apesanteur. Veo, lui, met en scène un astronaute versant du café depuis un récipient. Problème : une partie du liquide s'échappe du verre, mais l'essentiel semble tout de même s'y écouler. Or, sans gravité, le café ne peut pas "couler" vers le bas ; il devrait flotter librement dans l'air.

Sora contourne cette difficulté en choisissant une scène où le café n'est déjà plus dans son contenant, évitant ainsi toute incohérence physique.

Enfin, sur le plan esthétique, Veo prend l'avantage. Ses couleurs sont harmonieuses et le rendu photoréaliste pourrait déjà être exploité tel quel. Sora, de son côté, propose des images plus crédibles que réalistes, avec une texture qui évoque davantage l'image de synthèse.

Un animé

Enfin dernier test, nous demandons aux IA de générer un animé dans le style Studio Ghibli mettant en scène un petit renard jouant joyeusement dans la neige fraîchement tombée. Il s'agit ici de juger la capacité de stylisation et de cohérence.

Prompt :

An animated short film in Studio Ghibli style of a small fox joyfully playing in freshly fallen snow.

Soft pastel colors, gentle snowflakes drifting, visible breath in cold air, painterly textures. Warm sunlight filters through trees as the fox jumps and rolls in the snow. Soft depth of field, 24 fps, 4K.

La vidéo produite par Veo :

La vidéo produite par Sora :

Sur le plan esthétique, la vidéo générée par Sora évoque davantage le style du Studio Ghibli, avec une ambiance douce et picturale, tandis que Veo s'inscrit clairement dans un registre proche de Pixar, misant sur une 3D fluide et impeccablement rendue. Dans les deux cas, le résultat est exploitable en l'état : les images sont cohérentes, crédibles et physiquement réalistes. Le choix entre les deux tient donc surtout au goût artistique. Pour notre part, nous penchons vers la version de Veo, plus détaillée, lumineuse et expressive.

Côté bande sonore, Veo prend l'avantage. Les bruits d'ambiance et les pas dans la neige sont convaincants, malgré une musique de fond un peu envahissante. A l'inverse, Sora propose une ambiance sonore plus pauvre, aux tonalités (encore) métalliques. L'animation classique pourrait bien être le premier secteur audiovisuel à adopter massivement l'IA, tant la génération vidéo atteint désormais un niveau de maturité remarquable sur la plupart des modèles.

La route est encore longue

Malgré des avancées spectaculaires en seulement quelques mois, la route vers une génération vidéo sans retouche et du premier coup reste encore longue. Le suivi des consignes, bien que globalement satisfaisant, demeure perfectible : les IA continuent à introduire des libertés d'interprétation ou à manquer certains détails. Quant à la physique, elle reste une faiblesse.

Au final, les deux modèles se révèlent presque à égalité, chacun excellant dans son domaine. Sora 2 l'emporte sur le réalisme global, livrant des vidéos convaincantes où les forces naturelles sont mieux respectées. Veo 3.1, lui, brille par sa finesse stylistique et son rendu production-ready : ses images sont plus polies, plus détaillées, prêtes à être exploitées immédiatement sans retouche majeure. Le choix entre les deux dépendra donc surtout de vos priorités créatives. En revanche, l'animation traditionnelle pourrait bien être le grand gagnant de cette révolution. Les deux modèles y livrent des résultats véritablement exploitables, ouvrant la voie à une adoption massive et rapide de l'IA.