Le text-to-speech, ou comment créer un inventaire audio à moindre coût

Le text-to-speech, ou comment créer un inventaire audio à moindre coût Prisma, Unify, Webedia, Le Figaro et La Tribune sont parmi les marques médias qui se sont laissées séduire par cette innovation au potentiel publicitaire considérable.

Le text-to-speech ne fait pas parler que les articles de presse. Il est également sur toutes les lèvres des éditeurs, de plus en plus nombreux à proposer ce service qui permet au visiteur d'entendre plutôt que de lire les textes grâce à une voix de synthèse. Après les marques des groupes Prisma Media, Unify et Webedia, qui déploient la solution Print Audio proposée par Audion, c'est au tour du Figaro de le mettre en place avec ETX Revolusound, la plateforme d'ETX Studio, agence de presse fondée en 2000 (ex-Relaxnews), qui équipe également La Tribune.

En tête de chaque contenu, le module "écouter cet article" permet à l'internaute de déclencher la voix de synthèse. "Les technologies de voix de synthèse se sont beaucoup améliorées, on a vraiment passé un cap ces derniers temps, ce qui nous a permis d'enfin pouvoir offrir une nouvelle voie d'accès à nos contenus à nos lecteurs à travers ce service innovant", explique Bertrand Gié, directeur du pôle news du Figaro. Qu'ils soient sportifs ou mal voyants, qu'ils soient pressés ou tout simplement adeptes de l'audio, ces lecteurs peuvent entendre l'intégralité des contenus du Figaro.fr mis à leur disposition grâce à cette nouvelle fonctionnalité.

"Depuis le début de l'année nous avons intégré notre player sur un peu plus de 700 millions de pages vues"

Mais le text-to-speech n'est pas qu'un nouveau service offert au lecteurs. Il est surtout envisagé comme une source potentiellement conséquente d'inventaire audio, avec ce que cela peut impliquer en génération de revenus publicitaires. "Un site Internet d'information crée en moyenne entre 20 et 200 news par jour (sur figaro.fr on parle plutôt de 400 à 500 articles publiés par jour, ndlr.) : si tous ces sites deviennent écoutables, cette masse considérable d'inventaire audio pourra, si l'usage se confirme, devenir très rapidement le deuxième levier captant le plus d'investissements publicitaires en audio, juste après les plateformes de streaming", déclare, convaincu, Nicolas Thorin, directeur général d'Audion. "Depuis le début de l'année, nous avons intégré notre player sur un peu plus de 700 millions de pages vues. Si on avait ne serait-ce que 10% d'écoutes, ce serait déjà un très beau volume ! On peut très vite dépasser la barre des 100 millions d'écoutes par mois au global, tous acteurs confondus", ajoute-t-il.

Dans le cas du Figaro, ce service audio est déjà monétisé. Ce sont les équipes de Média Figaro qui s'en occupent. "La publicité que ce nouvel usage pourra générer n'était pas une priorité pour nous, même pas un facteur qui nous a poussé à l'adopter. En revanche, même s'il est très tôt pour l'évaluer, peut-être qu'à l'avenir cela deviendra une nouvelle source de recettes, tout dépendra de l'usage qui en sera fait", précise Bertrand Gié.

Au-delà d'un volume prometteur, les deux autres atouts des inventaires en text-to-speech sont la brand safety et la granularité contextuelle, propice au ciblage, ce qui ne pourra que conforter les annonceurs indécis. Mais à condition de ne pas briser un usage naissant jugé positif. "Nous avons démarré une phase plus industrielle de déploiement depuis le début de l'année, après neuf mois de tests. Les retours sont probants avec des chiffres d'adoption par les audiences assez positifs, de l'ordre de 1%, soit deux fois plus qu'il y a six mois", affirme Nicolas Thorin. "Le rôle de l'éditeur pour favoriser cette adoption est fondamental : il faut mettre en valeur le player, bien expliquer que cette possibilité existe, ne pas monétiser les contenus courts ou le faire seulement en post-roll, etc.". Ce professionnel conseille beaucoup de prudence aux éditeurs et aux régies dans un premier temps : la publicité doit y être employée avec douceur pour ne pas décourager les internautes et leur donner le temps d'épouser ce nouvel usage de l'audio digital.

"C'est un investissement de l'ordre de quelques milliers d'euros par mois, entre des coûts de set up, de bande passante et de stockage"

Jérôme Doncieux, patron d'ETX Studio, considère que les éditeurs ont tout intérêt à privilégier dans un premier temps le parrainage. "Les annonceurs adorent être associés à l'innovation et ce modèle de monétisation a l'avantage d'être très qualitatif", déclare-t-il, en faisant part des niveaux de CPM variant actuellement de 14 à 16 euros. Pour ce professionnel, la suite logique sera la monétisation publicitaire avec des formats assez courts, de 30 secondes au maximum en entrée, milieu et sortie au total. Il parie que ce format se prêtera également à l'offre de modèles à l'abonnement.

Seules ou en partenariat avec d'autres acteurs, les solutions de text-to-speech transforment automatiquement le texte en audio activable via le player affiché en haut de chaque article, l'hébergent et peuvent aller jusqu'à gérer leur monétisation. Un accompagnement en conseil est également fourni. La mise en place de ce type de solution ne semble pas très complexe. "Il nous a fallu entre deux et trois mois de déploiement, pas plus", explique Bertrand Gié. Les coûts ne seraient pas exorbitants non plus : "C'est un investissement de l'ordre de quelques milliers d'euros par mois ,entre des coûts de set up, de bande passante et de stockage", ajoute-t-il.

Différents modèles sont proposés aux éditeurs mais tous ont en commun de fonctionner selon un abonnement mensuel couplé ou remplacé par le partage de revenus publicitaires quand la monétisation est mise en place. Pour les acteurs les plus petits, ETX Studio propose une version simplifiée, manuelle, à environ 500 euros par mois, où ce sont les équipes de l'éditeur qui choisissent les contenus à convertir. Pour des sites de marques médias nationales avec de plus gros volumes de publication, c'est la version automatisée qui est mise en place avec la recommandation de rendre 100% des contenus écoutables dans une centaine de langues et accents. "Dans ce cas, il faut compter entre 20 000 et 30 000 euros de set-up puis soit une licence de 1 500 euros par mois soit un partage de revenus publicitaires", précise Jérôme Doncieux. L'entreprise accompagne également des marques et des institutions dans l'adoption du text-to-speech.