Génération de vidéo : 10 mois après son annonce, Sora d'OpenAI est (enfin) là

OpenAI vient de déployer Sora, son générateur de vidéos par IA, aux États-Unis. Disponible pour les abonnés ChatGPT Plus et Pro, l'outil permet de créer des vidéos de 20 secondes en haute définition.

J-Day : 10 mois après son annonce, Sora a été déployé largement au public ce 9 décembre. Le générateur de vidéos par intelligence artificielle annoncé par OpenAI en février est disponible pour l'ensemble des utilisateurs de ChatGPT Plus et Pro depuis les Etats-Unis. Pour y accéder en France, il sera donc nécessaire d'utiliser un VPN connecté au pays de l'oncle Sam. Pour l'occasion OpenAI dévoile également une nouvelle interface dédiée entièrement à la conception de vidéo, ainsi qu'un nouveau modèle Sora nommé Turbo. Ce dernier serait beaucoup plus rapide que le modèle initialement présenté en février.

Des vidéos en 1080 P

Depuis Sora.com, les utilisateurs de ChatGPT Plus peuvent générer environ 50 vidéos en 480 P et un peu moins (OpenAI ne précise pas le chiffre exact) en 720 P. Le 1080 P semble réservé aux utilisateurs de la nouvelle formule Pro de ChatGPT à 200 dollars par mois. La durée maximale des vidéos générées est d'environ 20 secondes. Une taille idéale qui permet par exemple de générer de beaux plans séquences sans compromettre la cohérence globale d'une vidéo. Plusieurs formats sont proposés, du vertical au carré en passant par des formats classiques 16:9.

L'outil permet de générer des vidéos à partir de trois modalités : texte, images et vidéo. Le modèle peut également animer des images créées par Dall-E ou étendre des vidéos existantes vers l'avant ou l'arrière dans le temps pour créer des boucles vidéo parfaites. OpenAI promet une très bonne qualité globale et une grande polyvalence des styles générés. Bien que non spécifiquement conçu pour la simulation 3D, Sora présente également, toujours selon OpenAI, des capacités prometteuses. Le modèle peut générer des mouvements de caméra dynamiques, maintenir la cohérence des objets dans le temps et même simuler des interactions simples avec l'environnement.

Malgré de nombreux points forts, le modèle d'OpenAI n'est pas parfait. Il peut encore avoir du mal à générer des scènes avec une physique réaliste des objets et personnages présentés. Le réalisme global peut être impacté, prévient OpenAI. Enfin, la start-up avertit également que le modèle peut avoir du mal à générer des scènes ou des paysages très spécifiques (hors de son dataset d'entraînement).

Des garanties sécuritaires fortes

Pendant la période entre l'annonce du modèle et sa sortie, OpenAI a concentré ses efforts sur l'amélioration de la sûreté générale du modèle. Le modèle intègre notamment un classifier pour évaluer si les prompts (texte, image ou vidéo) enfreignent la politique d'utilisation (pas de NSFW, de scènes violentes…). Enfin d'autres classifiers sont utilisés après la génération de la vidéo pour détecter d'éventuels contenus inappropriés avant de l'afficher à l'utilisateur. OpenAI s'est également engagé à minimiser les risques liés à la sécurité des enfants. L'ensemble des données d'entraînement ont été filtrées pour exclure tous les contenus problématiques.

Pour finir, l'entreprise a mis en place des mesures (sans préciser lesquelles) pour prévenir la génération de deepfakes nuisibles et de contenus trompeurs liés aux élections. La génération de deepfakes serait, dans la théorie, assez limité avec Sora. Enfin l'IA limite également la possibilité d'imiter le style d'un artiste en particulier. Les prompts avec des noms d'artistes trop précis sont automatiquement réécrits par le système.

Enfin, OpenAI assure watermarker l'ensemble des vidéos produites avec Sora avec des métadonnées C2PA. Bien qu'il soit possible de supprimer assez facilement le tag, la jeune pousse assure avoir la capacité de détecter avec une grande fiabilité les vidéos générées par son IA. Un outil internet a été développé spécialement pour cette tâche. Pour l'heure, ce dernier est réservé exclusivement à un usage interne. L'entreprise envisage toutefois des partenariats avec des ONG et des organismes de recherche pour tester son outil interne de recherche inversée.

L'accès déjà limité

OpenAI prévoit de mettre à jour très régulièrement son modèle pour améliorer d'une part la sureté des vidéos générées et d'autres part réduire les biais du modèle. Enfin les performances générales du modèle devraient également s'améliorer grâce aux retours des utilisateurs. OpenAI travaille également et de manière active à la réduction globale des coûts d'inférence de son modèle pour le rendre accessible à des tarifs encore plus attractifs.

Malheureusement (ou heureusement selon le point de vue), fort de son succès, l'accès à Sora est déjà limité. OpenAI n'aurait pas assez anticipé la demande pour son outil. "Nous avons largement sous-estimé la demande pour Sora ; cela va prendre du temps avant que tout le monde puisse y avoir accès. Nous essayons de trouver comment accélérer le processus autant que possible", explique le patron de l'entreprise sur X. Le JDN, aussi, attend son tour pour tester le futur de la vidéo par IA.