Victor Riparbelli (Synthesia) "D'ici la fin de l'année, il sera possible de voir des avatars se déplacer dans une pièce avec Synthesia"

Victor Riparbelli est le CEO de Synthesia, la plateforme leader dans la création vidéo assistée par l'IA, à destination des entreprises.

JDN. Comment fonctionne la technologie derrière Synthesia ?

Victor Riparbelli est le CEO de Synthesia. © DR

Victor Riparbelli. Nous entraînons nos propres modèles en interne avec l'objectif de leur donner une compréhension générale de l'apparence humaine ainsi que leur manière de s'exprimer. L'avantage est que nous n'avons pas besoin d'une quantité de données aussi importante que d'autres acteurs de l'IA car nous nous concentrons sur une tâche bien spécifique, à savoir la création de vidéos intégrant des avatars. En synchronisant la voix avec le mouvement des lèvres d'un avatar par-dessus une vidéo existante, notre technologie réussit à créer l'illusion. Nous travaillons actuellement sur la prochaine génération d'avatars pour donner davantage de liberté à nos clients et élever le niveau de réalisme.

De quelle manière ?

Nous cherchons aujourd'hui à rendre nos avatars plus réalistes et expressifs. Nous voulons aller plus loin dans le niveau de détails et de personnalisation, que ce soit dans les mouvements des mains mais aussi des expressions du visage, avec des sourcils qui se lèvent, la tête qui se tourne, etc. L'objectif est de donner davantage de possibilités et de contrôle aux utilisateurs pour créer des contenus toujours plus engageants et professionnels, à l'instar des keynotes d'Apple toujours bien réalisées. D'ici la fin de l'année, il sera possible de voir des avatars se déplacer dans une pièce ou de personnaliser leur environnement. Nous dévoilerons une partie de cette prochaine génération d'avatars dans une mise à jour prévue fin mars.

Votre cœur de cible restera les entreprises ?

Oui, notre plateforme ne vise pas les créatifs ou les spécialistes du cinéma. Nous n'essayons pas de créer un Photoshop pour des experts. Notre objectif est plutôt de remplacer Powerpoint en créant une plateforme BtoB extrêmement simple à utiliser pour les entreprises. Notre plateforme peut par exemple se montrer utile pour convertir des informations déjà présentes sur un site Web en vidéo ou pour expliquer à des clients qui ont déjà acheté un produit comment l'utiliser. Synthesia connaît une forte demande. Nous sommes aujourd'hui l'une des rares entreprises dans l'IA à disposer d'une activité business réelle et solide, et à ne pas se contenter de démos amusantes. La plateforme est disponible en 140 langues et nos abonnements mensuels démarrent au prix de 30 dollars.

Comment comptez-vous faire face à la concurrence de modèles IA plus évolués permettant de créer des vidéos avec une plus grande liberté créative ?

La technologie va continuer de progresser, permettant de créer des vidéos de plus en plus qualitatives grâce à des technologies comme celles de Runway ML, Pika Labs, etc. Pour autant, ces modèles produisent encore des résultats aléatoires et leur usage n'est pas toujours simple. Mais nous n'en sommes encore qu'au début. Nous créons une technologie la plus évoluée possible mais pour l'instant son usage n'est pas pensé par les créatifs. Même si ces technologies sont amenées à converger, je crois que la différence se fera, in fine, non pas au niveau du modèle utilisé, mais plutôt du produit et du problème qu'il permet de résoudre.

Les gens ne se soucient pas de savoir si un contenu a été créé avec une IA ou non, mais plutôt de ce que celui-ci leur a apporté

La technologie de Synthesia aurait déjà été utilisée par les gouvernements chinois et vénézuéliens pour diffuser de la propagande. Comment luttez-vous contre le risque de création de deepfakes ?

C'est un problème complexe et nous ne prétendons pas être parfaits. Pour autant, nous réduisons ce risque avec la mise en place de mesures de sécurité. Notre politique se résume en trois 'C' : Consentement, Contrôle, Collaboration. La première concerne la création d'avatar sur la plateforme puisque nous ne permettons pas de télécharger une vidéo de quelqu'un d'autre. Il est obligatoire de lire une phrase à haute voix pour créer son avatar. La seconde mesure porte sur le contrôle et la modération des contenus. Chaque vidéo générée est soumise à une série de contrôles automatisés mais aussi humains visant à déterminer si celle-ci est conforme à notre politique de contenu. La sécurité est au cœur de nos préoccupations.

Quel regard portez-vous sur le succès des influenceurs virtuels, notamment en Asie ?

Le succès de ces avatars n'est pas lié au fait qu'ils soient générés par l'IA mais plutôt parce que les contenus sont intéressants. Les entreprises ne doivent pas tomber dans le piège de chercher à créer des vidéos avec l'IA parce que c'est à la mode ou amusant. Il est important de toujours penser à la valeur que cela apporte à leurs clients.

Le test ultime consiste à ne pas dire pas aux destinataires d'un contenu que celui-ci a été créé avec une IA, et observer s'ils apprécient ce contenu pour ce qu'il est

Le test ultime consiste à ne pas dire aux destinataires d'un contenu que celui-ci a été créé avec une IA, et observer s'ils apprécient ce contenu pour ce qu'il est. Par exemple, le créateur d'une chaîne populaire sur TikTok, spécialisée dans le contenu historique, utilise Synthesia pour générer la voix et les avatars. Son succès s'explique parce que le contenu intéresse les abonnés.

Quelle place auront ces avatars générés par l'IA dans notre quotidien ?

Nous verrons de nouvelles célébrités sous forme d'avatars apparaître, que ce soit des acteurs, influenceurs, etc. Mais ceci n'est pas nouveau. Mickey Mouse ou Harry Potter sont des figures fictives et pourtant ce sont des célébrités à travers le monde. En réalité, les gens ne se soucient pas de savoir si un contenu a été créé avec une IA ou non, mais plutôt de ce que celui-ci leur a apporté. Lorsque vous écoutez une musique, tenez-vous compte du fait que ce soit un synthétiseur qui ait produit un son de piano ? Même si les gens resteront, sans doute encore quelques années, curieux de savoir si un contenu a été réalisé ou non avec une IA, nous arriverons à un point où nous ne nous poserons plus cette question. De la même manière que nous ne nous intéressons pas aux technologies qui ont permis de développer les sites Web que nous consultons.

Ne croyez-vous pas que les progrès dans l'IA pourraient menacer un grand nombre d'emplois dans l'industrie du cinéma et de l'animation ?

Je pense qu'au contraire, ces technologies vont démocratiser la création de vidéos et, in fine, de créer davantage d'emplois, même si certains disparaîtront sans doute à court terme. Il y a une vingtaine d'années, seule une poignée de personnes gagnaient leur vie en étant devant une caméra. Aujourd'hui, nous ne comptons plus le nombre de personnes qui vivent grâce à leurs contenus sur Youtube ou TikTok. Même schéma dans l'industrie de la musique où l'émergence de logiciels a démocratisé la création de musique depuis un simple ordinateur portable, conduisant à plus de créativité et de concurrence. Grâce à l'IA, un créateur habitant dans un pays non-côtier pourrait par exemple générer des vidéos se déroulant sur une plage. Cette technologie devrait rendre la création de contenus vidéo accessible à tous.

Synthesia a réalisé une levée de 90 millions de dollars en juin 2023 auprès d'Accel et Nvidia, valorisant l'entreprise à 1 milliard de dollars. Quels sont vos objectifs désormais ?

Nous n'avions pas forcément besoin de lever à nouveau des fonds lors de ce dernier tour de table mais nous avons vu une opportunité de faire entrer de précieux partenaires dans notre capital. C'est un facteur important alors que nous investissons dans le développement de modèles IA plus importants mais aussi dans la création d'une base de données unique au monde pour leur entraînement. Nous avons ainsi développé notre propre studio 3D à Londres équipé de nombreuses caméras afin de capturer des images très détaillées et ainsi améliorer nos modèles IA.

Victor Riparbelli est le CEO de Synthesia, la plateforme leader dans la création de vidéos assistée par l'IA à destination des entreprises. Il cofonde l'entreprise aux côtés de Steffen Tjerrild, et des professeurs Matthias Niessner et Lourdes Agapito. Auparavant, il avait cofondé Coincall, une plateforme dans le secteur crypto, ainsi qu'un cabinet de consulting baptisé Immersive Futures. Il est diplômé en d'un Bachelor en Informatique de l'université IT de Copenhague.