OpenAI présente Sora 2, plus cohérent, plus fin dans les détails

Sora 2 promet un véritable gap en matière de réalisme, de complexité des scènes et introduit la sonorisation. Le modèle est progressivement déployé sur invitation.

OpenAI fait un pas en avant dans la génération vidéo. Afin de remplacer son modèle de première génération, déjà vieillissant face à Veo 3, OpenAI a lancé ce 30 septembre une nouvelle version de Sora. L'entreprise californienne évoque une mise à jour d'ampleur comparant la transition entre Sora à Sora 2 à celle de GPT-1 à GPT-3.5. Vidéos plus réalistes, meilleure adhérence au prompt, sonorisation… Sora 2 semble à même de concurrencer les principaux acteurs du marché naissant de la génération vidéo.

Une meilleure compréhension du monde physique

Depuis la sortie de Sora en février dernier, l'équipe en charge de Sora chez OpenAI s'est attelée à entraîner le modèle à simuler le monde physique le plus fidèlement possible. L'objectif est de rendre Sora capable de comprendre comment les forces et les mouvements agissent dans le monde réel pour tenter de les reproduire le plus finement possible dans les vidéos générées. Des datasets gigantesques de contenus (principalement vidéos) issus du web, de partenariats tiers ou encore générés par les utilisateurs de Sora eux même ou les chercheurs ont été constitués.

Selon OpenAI, Sora 2 est maintenant capable, comme Veo 3, de générer des vidéos physiquement crédibles. OpenAI parle même de scènes qui étaient jusqu'à présent impossibles à reproduire avec un modèle de génération vidéo. L'entreprise cite notamment le cas des routines de gymnastique olympiques, des backflips ou encore des mouvements de patinage complexes (Axel).

Sora 2 permet également de modéliser les situations d'échec. Par exemple, si un joueur de basket rate un tir, la balle rebondira sur le panneau arrière plutôt que de téléporter vers le panier. Le modèle performerait également en matière d'adhérence au prompt, c'est-à-dire avec des résultats plus en adéquation avec le prompt initial. Enfin la persistance aurait aussi été nettement améliorée pour permettre de produire des scènes plus cohérentes sur la durée.

Upload d'images et de vidéos du monde réel, sonorisation

Principale nouveauté, Sora peut maintenant injecter des contenus du monde réel (cameos). Que ce soit des images (déjà possible avec Sora 1) ou des vidéos, le modèle reproduit l'apparence physique de l'humain, de l'objet ou de l'animal envoyé avec une bonne précision, selon OpenAI. Du deepfake réaliste et sans entraînement préalable du modèle en somme. Enfin l'autre nouveauté concerne la sonorisation. Comme Veo 3, Sora 2 est maintenant capable de générer des effets sonores synchronisés et des dialogues, avec un bon niveau de réalisme. Avec le mode cameos, la voix d'une personne enregistrée en vidéo peut également être simulée.

Exemple : un deepfake de Sam Altman volant des GPU dans un magasin target.

Sora 2 est lancé pour l'heure en research release en Amérique du Nord, sur invitation. Les membres ayant déjà accès à Sora 2 peuvent partager un code d'activation pour autoriser de nouveaux utilisateurs depuis Sora.com. Sora 2 est accessible gratuitement avec des limites généreuses. Les utilisateurs de ChatGPT Pro pourront prochainement utiliser une version plus avancée de Sora 2 pour générer des vidéos plus longues et de meilleure qualité. L'API de génération vidéo sera ensuite lancée dans un second temps. OpenAI ne communique toutefois pas encore de prix.

Une application mobile pour iOS

En parallèle OpenAI lance à destination des utilisateurs grand public une application Sora conçue comme un réseau social. Les utilisateurs peuvent créer de nouvelles générations vidéo et remixer les créations des autres. Les nouvelles vidéos générées peuvent ensuite être partagées avec la communauté. Chaque utilisateur dispose ainsi d'un fil d'actualité personnalisé selon ses préférences. L'application est lancée sur iOS, dans un premier temps aux Etats-Unis et au Canada.

Si Sora 2 impressionne sur le papier, OpenAI garde le flou sur l'essentiel : aucun benchmark n'a été communiqué pour comparer objectivement les performances du modèle face à la concurrence. Difficile également de cerner la stratégie produit de la scale-up californienne. Sora 2 vise-t-il uniquement le grand public, ou OpenAI cible-t-il à terme le marché B2B de la création de contenu et du cinéma ? Pour l'heure, la direction reste peu lisible.