Cristóbal Valenzuela (Runway) "Madonna a utilisé Runway pour générer des vidéos lors de sa tournée"

Runway dévoile Gen-3 Alpha, son dernier modèle de génération de vidéos. Entretien avec son CEO qui détaille au JDN son ambition de créer la nouvelle génération d'outils pour les créatifs du monde entier.

JDN. Runway lance prochainement la version Alpha de son prochain modèle Gen-3. Quelles sont ses capacités ?

Cristóbal Valenzuela est le PDG et cofondateur de Runway. © DR

Cristóbal Valenzuela. Gen-3 Alpha est le premier et le plus petit de notre prochaine génération de modèles de fondation, formé sur une nouvelle infrastructure conçue pour l'entraînement multimodal à grande échelle. C'est une étape majeure vers notre objectif de créer ce que nous appelons des modèles mondiaux généraux (General World Models, ndlr). Elle se distingue par une amélioration significative en termes de fidélité et de contrôlabilité dans la génération de vidéos.

Gen-3 Alpha permet de générer des vidéos d'une durée allant jusqu'à 10 secondes de manière beaucoup plus rapide. Concrètement, un clip d'une durée de 5 secondes prend 45 secondes à générer, et un clip de 10 secondes est généré en 90 secondes. Nous sommes ravis de pouvoir le mettre entre les mains des créateurs et des entreprises du monde entier.

Quelles sont les principales améliorations et différences avec les précédentes générations de modèles, Gen-1 et Gen-2 ?

Notre génération Gen-X comprend plusieurs modèles, dont Gen-1 qui est notre premier modèle vidéo lancé il y a un an. Gen-2 est la génération suivante, capable de générer des vidéos à partir de textes, vidéos et d'images. Gen-3 inclut toutes ces modalités avec des améliorations notables. Il permet d'abord d'obtenir une meilleure qualité de rendu, grâce à des animations plus réalistes et des styles plus spécifiques. Par exemple, il est possible de choisir de créer un personnage en 2D ou 3D dans un style particulier. Ce modèle offre aussi une plus grande capacité de contrôle et permet de modifier plus en détail certains aspects du contenu généré

Comment Runway se différencie-t-elle dans cet univers très concurrentiel de la génération de contenus assistée par l'IA ?

Nous avons lancé l'entreprise en 2018 avec l'objectif de créer des modèles d'IA de pointe pour les créateurs et les artistes. Nous avons effectué des recherches fondamentales et publié des avancées significatives dans les systèmes multimodaux pour la génération d'images et de vidéos. Mais nous développons aussi des outils.

Runway est véritablement dévoué à la fusion de l'art et de la science. Cette combinaison unique, mêlant recherche et mise en application concrète, se fait grâce à une collaboration étroite avec des artistes, réalisateurs et créatifs. Notre recherche fondamentale est orientée avec l'objectif de mettre à disposition des modèles qui peuvent être contrôlés et utilisés pour des applications concrètes.

Comment se répartissent vos effectifs entre vos différentes activités, liées à la recherche et à l'aspect commercial ?

L'entreprise compte environ 90 personnes, avec des bureaux à San Francisco et New York. Nous comptons quelques collaborateurs en Europe avec notamment une équipe à Londres. Environ 70% de notre personnel est dédié à la recherche et à l'ingénierie. Nous avons l'un des pôles de recherche les plus solides dans le domaine de la génération d'images et de vidéos. Nos chercheurs travaillent en étroite collaboration avec des artistes et spécialistes des effets visuels, ce qui nous permet d'obtenir des idées intéressantes et innovantes.

Quel est le profil utilisateurs et à quel besoin répond votre plateforme ?

Plusieurs dizaines de millions de personnes ont créé un compte sur Runway. Notre plateforme est utilisée par de nombreux créatifs et entreprises, notamment dans la production de films, ainsi que par des agences publicitaires et des studios. Nos modèles se montrent très utiles en post-production mais aussi en pré-production vidéo. La pré-production inclut tout ce qui est fait avant de créer un contenu vidéo, comme la création de storyboards, l'idéation, la direction artistique, etc. Madonna a par exemple utilisé Runway pour générer des vidéos pour sa tournée qui étaient diffusées lors de ses concerts. Nos outils sont également utilisés pour des films, émissions de télévision, etc.

Runway développe des modèles d'IA et près de 35 outils d'IA générative. Votre objectif est-il de suivre le modèle Adobe en proposant une suite de logiciels ?

Nous voulons suivre notre propre voie sans nous limiter à une innovation incrémentale consistant à améliorer légèrement des logiciels existants. Créer un outil polyvalent pouvant répondre à tous les besoins des créatifs tout en étant très pointu pour accomplir certaines tâches n'est pas simple. Nous voulons créer des logiciels dédiés à l'animation et à la création de vidéos assistée par l'IA pour les millions de créatifs qui ont une histoire à raconter, qu'elle soit longue ou courte. Les prochaines générations de logiciels ne ressembleront pas aux précédentes. Elles offriront des possibilités inédites, comme par exemple la génération de vidéos en temps réel, ce qui ne peut pas encore être réalisé avec les outils existants.

Quel est votre modèle de revenus ?

Nous avons adopté un modèle freemium, ce qui permet à tout le monde d'essayer nos outils. Nos abonnements payants démarrent à partir de 12 dollars mensuels. Nos clients sont généralement des créatifs travaillant dans des agences de publicité, des équipes de production, des studios, ainsi que des réalisateurs, des musiciens, etc. Notre conviction est que la créativité est un état d'esprit et que n'importe qui peut être créatif avec les bons outils entre les mains.

Comment voyez-vous la concurrence d'OpenAI avec son modèle Sora, mais aussi de Luma AI et plus largement des nombreuses sociétés de ce secteur ?

Lorsque vous cherchez à créer une nouvelle catégorie de logiciels et à développer un business de taille conséquente, vous attirez inévitablement la concurrence. Nous savions dès le début que si nous réussissions, d'autres essaieraient de nous imiter. La prochaine génération de modèles sera non seulement meilleure, mais permettra de proposer des expériences concrètes pour l'utilisateur. Il y a en effet une différence entre publier de belles démonstrations de recherche et créer des produits. Parvenir à faire les deux n'est pas évident et je suis heureux de voir davantage d'acteurs essayer de relever ce défi.

Il existe beaucoup d'opacité sur les données utilisées pour entraîner les modèles. Quelles sont vos méthodes chez Runway ?

Tous nos modèles sont entraînés de différentes manières et nous utilisons différents ensembles de données pour chacun d'entre eux. Pour certains, nous nous appuyons sur des partenariats, comme celui avec Getty Images, qui nous permet d'utiliser leurs données. D'autres partenariats similaires seront annoncés prochainement. Certains de nos clients nous fournissent également des données, ce qui nous permet d'affiner certains modèles. Nous avons noué des relations solides avec plusieurs partenaires, mais je préfère ne pas divulguer certaines informations afin de protéger notre propriété intellectuelle.

En juin dernier, vous avez annoncé une levée de fonds de 141 millions de dollars en Série C auprès d'entreprises telles que Google, Nvidia ou encore Salesforce. Quels sont vos objectifs pour les années à venir ?

"Nous envisageons d'ouvrir un bureau en Europe, peut-être à Paris ou à Londres"

Nous sommes ravis d'avoir ces entreprises comme partenaires et actionnaires, d'autant qu'elles connaissent bien l'innovation dans ce secteur. Runway se développe plus rapidement que prévu et nous ferons donc bientôt de nouvelles annonces. Au cours des prochaines années, nous voulons continuer d'étoffer notre équipe de recherche. Nous sommes convaincus que ces investissements porteront leurs fruits dans les années à venir.

Dans quelle direction souhaitez-vous orienter cette recherche ?

Une grande partie de nos efforts de recherche est centrée sur ce que nous appelons les General World Models (modèles mondiaux généraux, ndlr) qui sont essentiellement des systèmes multimodaux. L'objectif étant de pouvoir générer des contenus vidéos, images, textes et audios au sein d'environnements cohérents. Nous envisageons d'ouvrir un bureau en Europe, peut-être à Paris ou à Londres. Runway a encore un long chemin à parcourir pour toucher toute la communauté de créateurs à travers le monde. Nous voulons créer la prochaine génération d'outils créatifs.

Quelle a été le rôle de Runway dans la création de Stable Diffusion ?

Il s'agissait d'une contribution de l'un de nos chercheurs dans le cadre d'un projet de recherche open source. Nous collaborons régulièrement avec des universités sur différents projets de recherche. Patrick Esse, l'un de nos collaborateurs et chercheurs, avait collaboré avec la Ludwig Maximilian University of Munich pour la publication d'un article de recherche accessible en open source. Ce modèle a ensuite été entrainé et amélioré par une entreprise appelée Stability AI, avec qui nous n'avons aucun lien, et qui est devenu Stable Diffusion.