Udio, le générateur de musique par IA pour les pro

Lancé en avril 2024, Udio entend démocratiser la génération de musique par IA auprès des professionnels. Doté d'une interface avancée, le services offre une personnalisation accrue des titres générés.

Un petit nouveau dans la génération audio par IA. Après Suno AI, Udio a lancé en avril 2024 son outil de création musicale par intelligence artificielle. Créé en 2023 par des chercheurs en IA, notamment d'anciens de Google DeepMind, Udio s'est donné pour mission de contribuer à l'émergence de la prochaine génération de musiciens assistés par IA. Basée à New York, la petite start-up est notamment soutenue par le fonds américain Andreessen Horowitz (a16z), par Mike Krieger (cofondateur de Instagram) et par plusieurs artistes américains de renom (will. i.am, Common…). Contrairement à Suno AI, Udio s'adresse à un public expert, capable de maitriser les principes avancés de la génération par IA.

L'éternelle question du copyright

Comme Suno, Udio ne dévoile pas l'architecture technique à l'œuvre derrière son outil de génération musical. Le service se base certainement sur une orchestration combinant un grand modèle de langage pour la génération de paroles et l'optimisation automatique du prompt couplé à un modèle de diffusion audio similaire à celui présenté par Stability AI. Pour parvenir à générer des pistes musicales cohérentes et complètes, Udio a entrainé son IA sur un dataset de plusieurs millions de musiques.

La start-up est justement accusée par la RIAA, l'organisation interprofessionnelle de défense de l'industrie musical aux Etats-Unis et par plusieurs labels (dont Sony, Universal et Warner), d'avoir utilisé du contenu sous copyright pour former ses modèles. Plusieurs plaintes ont été déposées. Udio répond en affirmant que son modèle a simplement "écouté" et développé "une compréhension des idées musicales" sans retenir de contenus protégés. Udio affirme également avoir développé et implémenté des filtres permettant de bloquer la génération de titres qui pourraient contenir du contenu sous copyright.

Une interface complète

Udio a développé une interface utilisateur à la fois simple et complète offrant une véritable personnalisation des titres générés. Le principal champ reste le prompt. Il faut y décrire dans les grandes lignes le type de chanson attendu, et dans le cas de paroles générées automatiquement, un fil directeur. Pour les paroles, Udio propose justement trois options :

Custom pour insérer ses propres paroles
Instrumental pour une musique sans parole
Auto-generated pour des paroles générées automatiquement par IA

Pour l'insertion de paroles personnalisées, Udio recommande entre 200 et 350 caractères et de spilter les mots complexes à prononcer.

Pour pousser la personnalisation encore un peu plus loin, Udio met à disposition des paramètres avancés intéressants pour contrôler la sortie finale du modèle. Prompt Strength permet par exemple de régler, grâce à un slider, la fidélité au prompt original. Une valeur plus haute offre un résultat plus proche du prompt mais la sortie peut paraitre moins naturelle. Une valeur plus basse offre des résultats plus éloignés du prompt mais plus cohérents. De la même manière, Lyrics Strength permet de régler la fidélité du respect aux paroles générées préalablement. Plus le taux est haut, plus la musique finale contiendra les lyrics originaux, au risque d'un titre peu cohérent musicalement parlant. Generation Quality permet ensuite de régler la qualité du fichier audio final. Plus cette valeur est élevée, plus la génération sera longue et inversement. Pour de premiers tests sur un projet, une valeur basse permet d'itérer plus rapidement, avant de produire un fichier final plus mûr.

Une image contenant capture d’écran, texte, logiciel, Logiciel multimédiaDescription générée automatiquement — L'interface de création musicale d'Udio. © Capture d'écran / JDN

Clip Start permet de choisir le timing de la piste à produire. Une valeur basse permet de générer le début de la chanson et une valeur haute la fin de celle-ci. Enfin, Seed permet de contrôler le caractère aléatoire de la musique générée. Une valeur de -1 offre des résultats aléatoires. En "verrouillant" le seed, il devient possible de retravailler progressivement le même type de musique par petite itération. Idéal pour affiner.

A la génération, Udio propose deux pistes différentes de 30 secondes environ qu'il est ensuite nécessaire d'étendre en générant au choix, le début, le milieu ou la fin.

Une image contenant capture d’écran, texte, logiciel, Logiciel multimédiaDescription générée automatiquement — L'outil d'extension de la première mouture générée. © Capture d'écran / JDN

Très clairement, Udio permet de construire par morceau de 30 secondes une musique complète. Le but étant l'hyperpersonnalisation de la musique finale, proche de celle qu'un artiste aurait pu composer. Toute la difficulté réside dans la maitrise de l'outil et des différents paramètres pour obtenir un résultat globalement cohérent.

Sur le fond, la qualité semble presque aussi bonne qu'avec Suno. La cohérence des paroles générées automatiquement est en revanche assez aléatoire.

Exemple d'une piste générée à partir du prompt : "A French song extolling the virtues of Frenchtech in France." Le résultat présente ici le couplet principal.

"Lumière de Frenchtech - Udio"

Exemple d'une autre piste avec des paroles renseignées.

Prompt: Create an energetic and optimistic melody for a song titled 'AI à la française' (AI French Style). The musical style should blend modern French pop with electro, featuring a medium to fast tempo. Include sound elements that evoke technology, such as subtle electronic beeps or futuristic synthesizer sounds. The melody should be catchy and easy to sing, suitable for a patriotic chorus about technological innovation. The overall atmosphere should be inspiring and forward-looking, reflecting France's progress and excellence in the field of AI.

Lyrics :

L'IA à la française, notre fierté

Des labos aux start-ups, on a tout donné

LeCun et l'INRIA montrent la voie

Innovation, éthique, c'est notre loi

De la santé à la mobilité

L'IA transforme la société

Notre savoir-faire brille partout

L'IA française, c'est notre atout

"AI à la Française - Udio"

Trois offres proposées

Udio propose trois offres pour utiliser ses services dont deux payantes. La version gratuite offre 10 crédits par jour, la génération en vitesse standard, la possibilité de générer deux musiques à la fois. En sachant qu'un crédit correspond environ à 30 secondes de musique produite. L'offre Standard à 12 euros par mois permet d'accéder aux nouvelles fonctionnalités, contient 1200 crédits, une génération rapide et offre la possibilité de générer 3 titres à la fois et des images de couverture. Enfin la version Pro permet en plus des options de Standard de générer 4 titres en même temps avec un total de 4 800 crédits. L'offre permet également l'accès à un nouveau modèle nommé udio-130 2-mn.

Un outil avancé pour les pro

Au-delà des questions juridiques qui restent à éclaircir, Udio ouvre des perspectives intéressantes. Dans le domaine de la musique de production (publicités, habillages sonores..), Udio pourrait permettre de générer des musiques sur-mesure de façon quasi-instantanée et à moindre coût, en fonction d'un brief ou d'une intention spécifique. De même les créateurs de contenu ne devraient pas manquer de saisir l'opportunité représentée par Udio.

Les possibilités sont nombreuses, même s'il faudra encore un peu de temps pour que le cadre légal et éthique se clarifie. Udio représente en tout cas une étape de plus vers une démocratisation de la création musicale par IA pour les professionnels. Au fil des prochaines améliorations du modèle, Udio devrait se révéler comme une alternative crédible aux banques musicales. Dans le domaine artistique, beaucoup reste à faire et rares sont les experts à parier sur la supplantation de l'IA sur l'humain.