Anastasis Germanidis (Runway) "D'ici un an ou deux, il sera possible de créer un long métrage complet avec Runway"

Runway continue d'enrichir sa plateforme avec des outils visant à donner davantage de contrôle aux créateurs pour mieux diriger ses modèles d'IA. Son cofondateur dévoile les derniers progrès et explique comment ces outils transforment les pratiques créatives.

JDN. Runway enrichit régulièrement sa plateforme avec de nouveaux outils. Quels sont les derniers en date et quels progrès significatifs avez-vous faits au cours des derniers mois ?

Anastasis Germanidis est cofondateur et CTO de Runway. © AG

Anastasis Germanidis. Même si les résultats obtenus grâce à nos modèles text-to-video se sont révélés impressionnants et convaincants, nos utilisateurs, qui sont des créatifs, ont rapidement réalisé qu'ils ne pouvaient pas obtenir des résultats précis uniquement avec des prompts textuels. Par exemple, un réalisateur peut avoir besoin de créer certaines interactions entre des objets ou de réaliser des mouvements de caméra bien spécifiques. Notre objectif est donc de leur mettre à disposition un maximum d'outils avancés pour leur permettre de diriger nos modèles, dont notamment Gen-3 Alpha, avec davantage de contrôle.

Nous comptons actuellement une quarantaine d'outils, dont certains permettent de générer des vidéos à partir d'images, de maîtriser les mouvements de caméra, etc. Je peux également vous citer les récents ajouts d'Expand Video, qui permet d'étendre une vidéo dans un format vertical ou horizontal, ou encore Act One, qui permet de capturer et transférer des expressions faciales sur un autre visage.

Runway a présenté ses modèles Gen-1 et Gen-2 en février 2023 puis Gen-3 Alpha, en juin 2024, avec des progrès considérables. Quand prévoyez vous d'introduire Gen-4, et comment entraînez-vous ces modèles ?

Chaque génération de nos modèles de base est entièrement entraînée à partir de zéro. L'une des clés, en dehors des améliorations d'architecture et d'algorithmes, est l'augmentation des ressources de calcul utilisées pour chaque modèle. Concernant Gen-4, il y a des discussions en interne sur les prochaines étapes à venir, mais nous n'avons rien de concret à annoncer pour l'instant. Lorsque vous faites de la recherche, il est difficile d'avoir des délais très précis. C'est un processus qui nécessite du temps, et seule une fraction des idées et projets en cours va réellement aboutir. Je crois qu'il nous reste encore beaucoup à faire avec Gen-3, d'autant que nous n'avons pas encore tout publié.

Act One se montre utile pour animer un personnage en permettant de conserver les expressions faciales d'un visage provenant d'une autre vidéo source. Quelles utilisations envisagez-vous pour ce nouvel outil ?

La fausse idée communément répandue autour des modèles d'IA générative a été de penser initialement que les résultats allaient être identiques et que tout le monde créerait les mêmes choses. En réalité, les outils de contrôle n'étaient pas encore là pour permettre une véritable maîtrise des modèles d'IA. Act One est sans doute l'une des meilleures représentations de nos efforts visant à donner davantage de contrôle et de précision à nos utilisateurs. 

"Nous lançons un nouvel outil environ tous les quinze jours."

Contrôler les expressions faciales humaines est une partie importante de la narration vidéo car cela permet de mieux se connecter à des personnages et de maîtriser certaines subtilités. Bien sûr, ce n'est qu'une étape et il nous reste encore d'autres aspects à améliorer, notamment en ce qui concerne la maîtrise des mouvements corporels. Mais Act One représente déjà un grand pas en avant.

Quels sont vos projets dans le domaine de l'audio, qui reste une composante indispensable pour pouvoir réaliser des films, par exemple pour ajouter des effets sonores ou des dialogues ?

Nous réfléchissons à différentes choses, mais nous cherchons le bon moment pour intégrer véritablement des outils complètement intégrés. Il nous paraissait important, dans un premier temps, de perfectionner le rendu visuel de nos modèles IA et d'ajouter progressivement des options de contrôle dédiées à la vidéo avant d'ajouter cette composante audio. Cela viendra et c'est une question de temps. À terme, nous introduirons des workflows audio complets. Mais il est essentiel aujourd'hui pour notre équipe de recherche de rester concentrée, d'autant que la vidéo est déjà un domaine suffisamment complexe. Cela dit, nous proposons déjà plusieurs outils audio sur notre plateforme, permettant par exemple de faire lire du texte par l'IA, de créer des voix personnalisées, de synchroniser l'audio avec les lèvres d'un personnage ou encore de nettoyer un fichier pour retirer des sons indésirables.

La possibilité de créer un long métrage entièrement avec l'IA apparaît plus accessible que jamais. Quel délai anticipez-vous pour y parvenir ?

Nous n'en sommes effectivement plus très loin. Si je devais donner une estimation, je dirais que cela devrait être réalisable d'ici un à deux ans. Cela ne veut pas dire qu'il suffira de rédiger quelques phrases pour obtenir instantanément un film de deux heures. Il faudra toujours travailler chacun des plans, utiliser différents outils de contrôle pour peaufiner chaque prise et chaque scène afin d'obtenir le rendu souhaité, etc. Mais oui, il sera potentiellement possible de créer un film complet avec Runway, sans avoir à filmer quoi que ce soit.

Combien de personnes travaillent chez Runway et comment se répartissent vos effectifs entre vos différents départements ?

Nous sommes environ 90 personnes, dont une majeure partie travaillent au sein de notre pôle de recherche. Nous essayons de rester autant que possible en effectifs réduits car nous voulons conserver une certaine agilité. Certains membres de notre équipe créative sont initialement des réalisateurs ou monteurs vidéo. Leur rôle consiste, entre autres, à tester nos modèles et outils afin de donner du feedback à nos chercheurs, tout en réalisant des vidéos pour promouvoir notre plateforme. 

"J'espère que des œuvres générées entièrement par IA gagneront des prix dans de grandes cérémonies sans que personne ne sache ou se demande si c'est de l'IA."

Nos chercheurs sont tous animés à l'idée de faire avancer l'innovation en publiant des articles. Mais ils sont aussi très motivés par l'idée de voir leurs modèles concrètement utilisés par la communauté. Nous avons annoncé en novembre dernier l'ouverture de notre bureau à Londres, qui compte une dizaine de personnes, principalement dédiées à la recherche.

En septembre dernier, vous avez annoncé un partenariat avec le studio de production Lionsgate. Quels sont vos objectifs et prévoyez-vous d'autres collaborations similaires avec des studios hollywoodiens ?

Ce partenariat, qui est une première dans son genre, vise deux objectifs, dont le premier porte sur l'aspect créatif. Nous travaillons en étroite collaboration avec les différentes équipes de Lionsgate, dont les monteurs vidéo, les superviseurs VFX ou leurs équipes de production, afin d'intégrer nos outils dans leurs flux de travail pour leurs futurs projets de films. L'autre aspect porte sur la data : nous créons des modèles personnalisés, basés sur Gen-3 Alpha, à partir du catalogue de films et de séries de Lionsgate. 

Ces deux volets sont interconnectés, car les modèles personnalisés entraînés sur ces contenus offriront de meilleures performances pour certains cas d'usage spécifiques à Lionsgate. Les studios de cinéma adoptent de plus en plus les technologies basées sur l'IA. Des outils comme Runway leur permettent d'aller plus vite tout en créant des œuvres toujours plus spectaculaires et qualitatives. Nous restons bien sûr ouverts à l'idée de travailler avec d'autres studios.

Quel regard pensez-vous que l'industrie du cinéma porte sur l'IA et comment votre solution est-perçue par les professionnels du secteur ?

"Runway est avant tout une plateforme conçue pour les créatifs du milieu professionnel."

 Il y a beaucoup de discussions au sein des secteurs créatifs au sens large sur l'impact de l'IA sur les métiers de demain. J'observe souvent que les opinions évoluent dès que quelqu'un visionne un contenu réalisé avec cette technologie. C'est aussi pour cette raison que nous avons organisé en mai dernier notre AI Film Festival à Los Angeles et New York. Certains films présentés lors de cet événement ont également été montrés au Tribeca Film Festival, ce qui a permis aux artistes de toucher une nouvelle audience, issue du milieu du cinéma traditionnel, et d'obtenir d'excellents retours. Quand on regarde un film, on ne passe pas son temps à se demander quelles techniques ou caméras ont été utilisées. Je pense que ce sera la même chose avec l'IA. J'espère que des œuvres générées entièrement par IA gagneront des prix dans de grandes cérémonies sans que personne ne sache ou se demande si c'est de l'IA.

Vous êtes d'origine grecque, donc citoyen européen. Quel regard portez-vous sur la place de l'Europe dans cette course à l'IA et sur l'impact de l'IA Act, le règlement européen visant à encadrer cette technologie ?

Il y a actuellement beaucoup de discussions autour de l'IA mais il faut bien comprendre que nous n'en sommes encore qu'aux débuts. Les usages des modèles, outils et produits intégrant l'IA seront très différents dans cinq ans de ceux d'aujourd'hui. Il y a actuellement beaucoup de projections sur les risques potentiels liés à l'IA, mais je pense qu'il est un peu hasardeux d'extrapoler aussi loin. Bien sûr, il est essentiel de mettre en place des garde-fous et des régulations adaptées, par exemple pour assurer la sécurité dans le déploiement des modèles. Mais essayer d'anticiper des risques potentiels aussi éloignés, qui ne se matérialiseront peut-être jamais, me semble être une erreur. Il me paraît important de rester pragmatique et de ne pas trop devancer les faits.