Comment créer son clone vocal avec Resemble AI ?

Clonage, text-to-speech, speech-to-speech… Resemble AI offre des applications avancées pour de nombreux cas d'usage.

Après le textuel, c'est un domaine de l'IA en hypercroissance. D'OpenAI en passant par Google, Meta ou AWS, les produits de création de voix synthétiques par IA constituent l'ébauche d'un nouveau marché. Plusieurs start-up tentent également de se lancer dans le secteur. Text-to-speech, speech-to-speech… Resemble AI, la solution la plus populaire aux côtés de ElevenLabs, propose une panoplie de services dédiés à la voix. Le plus novateur d'entre tous : le clonage vocal. Avec moins d'une minute d'enregistrement, l'IA de Resemble AI parvient à reproduire avec une grande fidélité les principales caractéristiques d'une voix.

Des géants américains déjà clients

La technologie de clonage vocal de Resemble AI, annoncée en avril dernier, repose sur une savante orchestration d'IA. Le système peut traiter (dans sa version rapide) un enregistrement de 10 secondes à 1 minute en capturant les nuances de la voix, y compris les accents et les intonations. L'IA de Resemble permet de créer des voix synthétiques reproduisant fidèlement les subtilités de l'original, surpassant - selon la start-up - d'autres modèles de pointe en termes d'accent.

L'entreprise collabore déjà avec les géants du divertissements Netflix, Paramount ou encore Universal. Les cas d'usage actuellement déployés par l'entreprise incluent la création de dialogues pour les jeux vidéo, la production de publicités audio personnalisées, la réalisation de voix off et de doublages pour le cinéma et la télévision ou encore le développement d'assistants vocaux pour des services clients.

Un clone vocal en une minute

Resemble AI propose par défaut deux modes pour créer son clone : Professional Voice Clone et Rapid Voice Clone, tous deux uniquement en anglais. Le mode Professional prend environ une heure pour créer une voix et supporte tous les accents. Il nécessite un enregistrement web ou l'upload d'un fichier audio. Le Rapid Voice Clone, plus récent, génère une voix en une minute et couvre la majorité des accents anglais (sauf exception). Pour du testing, il est recommandé de commencer par le Rapid Voice Clone avant d'utiliser Professional Voice Clone en production.

Dans le cadre de ce test, nous utiliserons le mode Rapid. L'interface de configuration du clone est très intuitive. Pour la génération du clone, Resemble exige l'upload d'un fichier audio où vous seul parlez ou l'enregistrement natif sur le web de trois séquences audios.

Une image contenant texte, capture d’écran, Police, logicielDescription générée automatiquement — Enregistrement d'une séquence audio sur Resemble AI. © Capture d'écran / JDN

Comme annoncé par Resemble, le processus de génération du clone ne prend que quelques minutes. Vous disposez ensuite d'un double numérique de votre voix capable de lire, comme vous, chaque texte qui lui est soumis. Notre clone vocal est véritablement convainquant et reproduit déjà à la perfection l'accent local français. Attention toutefois, veillez à enregistrer votre voix dans un environnement calme et avec un microphone de bonne qualité. Meilleur est l'enregistrement initial, plus fidèle sera le clone numérique.

Ce véritable double numérique de voix peut ensuite être utilisé à souhait sur Resemble pour du text-to-speech ou du speech-to-speech (un assistant vocal qui répond en direct, avec votre voix). La génération de l'audio ne prend que quelques millisecondes.

Trois formules, un pricing attractif

Resemble AI fonctionne sur abonnement. Il est indispensable de disposer d'une formule active pour utiliser la fonctionnalité de clonage de la voix. L'offre de base, Creator, est conçue pour les créateurs individuels à 29 dollars par mois. Elle offre 10 000 secondes gratuites (plus de 2 heures), 5 clones vocaux rapides et 1 clone pro. Pour les projets plus lourds, le plan Professional à 99 dollars par mois augmente considérablement les capacités avec 80 000 secondes (plus de 22 heures) gratuites et 25 de clones vocaux rapides et 3 clones pro.

Les grandes entreprises peuvent opter pour l'offre Business à 499 dollars mensuels, qui inclut un accès à l'API, 320 000 secondes (plus de 88 heures) gratuites, 500 clones rapides et 10 clones pro. Enfin, pour les besoins sur mesure à grande échelle, Resemble propose une offre Enterprise avec un support dédié.

Une image contenant texte, capture d’écran, Police, menuDescription générée automatiquement

Un service orienté business mais des limitations en France

Que ce soit pour la production de podcasts, la création de voix off personnalisées, ou le développement d'assistants vocaux intelligents, la technologie de Resemble AI ouvre un vaste champ de possibilités. L'option de déploiement on-premise ajoute une couche de flexibilité appréciable pour les secteurs sensibles. Resemble dispose également d'un service de détection de ses clones vocaux pour détecter les éventuels deepfakes. Un vrai plus sécuritaire.

Toutefois, l'utilisation de Resemble AI et du clonage reste très limité au sein de l'Hexagone. L'usage exclusif de l'anglais limite son usage aux grandes entreprises et les groupes ayant une présence européenne ou mondiale. En revanche, il n'est pas inintéressant de procéder dès à présenter au testing de l'outil en anticipation d'un éventuel support futur du français.