Antoine Kauffeisen (Acapela) "La synthèse vocale facilite la conception de modules d'e-learning"

La synthèse de la voix à partir de texte est de plus en plus utilisée par les entreprises. Cette technique n'est pourtant pas nouvelle, mais s'améliore en qualité années après années.

Comment fonctionne la synthèse vocale ?

La voix de synthèse est créée à partir de deux briques. La première est le texte. A partir d'un document ou d'un site Web que l'on ramène à un format standard, on convertit le texte en phonétique, puis on fait une analyse syntaxique. On rajoute alors des informations sur la prosodie [ndlr ou mélodie], et l'on transforme l'ensemble en un fichier que l'on rentre dans un synthétiseur.

La seconde brique est la voix. On enregistre une voix humaine avec des speakers dans des séances qui peuvent durer quatre heures par jour sur trois semaines. Les voix doivent être d'une qualité constante, l'objectif étant de couvrir le maximum de combinaisons possibles. Il est important de disposer d'une voix homogène. Pour cela, avec la base de données de sons récupérés, on colle les sons les uns aux autres pour recomposer une phrase. C'est le synthétiseur qui gère l'opération. Le plus compliqué est de le faire pour plusieurs langues différentes. Et pour chaque langue on a des linguistes spécialisés qui créent les modules.

A quels besoins d'entreprise ce type de service peut-il répondre ?

"Être une passerelle entre l'écrit et l'audio"

Il y a plusieurs types de services de synthèse vocale potentiellement intéressants que nous proposons. Tout d'abord, les produits sous licence que les entreprises intègrent dans leurs applications. Ils enregistrent les fichiers sons et les utilisent, via Virtual Speaker. En pratique, le client installe le logiciel. Pour réaliser un service d'accueil téléphonique par exemple, il tape un message qui est ensuite converti en fichier son avant d'être placé sur le serveur vocal du téléphone. L'avantage est qu'il crée lui-même du contenu sans avoir à passer par un studio.

On est présent aussi sur l'accessibilité en vendant des informations aux personnes handicapées ou en situation de handicap, comme lire des SMS en voiture notamment. Le but étant d'être une passerelle entre l'écrit et l'audio.

Sur le Net aussi, on propose la possibilité d'avoir un service de vocalisation en ligne. Tout simplement en lisant les informations qui se trouvent sur la page. Cela fonctionne avec Voice At The Service, qui permet de faire des applications connectées et de les faire parler. On a l'exemple du site Reflex Immo, où les annonces d'appartements sont visuelles et orales.

Enfin, Acapela intervient aussi dans le domaine de la sécurité avec Speach Unite, qui est une alarme vocale pour la supervision avec un boîtier qui contient le système de synthèse et le téléphone. Les messages d'alarme sont envoyés au boîtier puis ce dernier appelle l'utilisateur et le prévient. Cela marche dans l'autre sens où la personne peut contacter le boîtier pour interroger les logs et voir l'état des appareils munis de capteurs.

Quels solutions logicielles sont les plus fréquemment utilisées ?

Parmi les tendances fortes, on relève l'e-learning, l'iPhone et la demande de voix propriétaires. L'e-learning est très pratique pour les sociétés multi-sites. On a l'exemple d'un supermarché qui reçoit un module e-learning toutes les semaines, qui permet une formation simplifiée et accessible dans tous les magasins.

Sur iPhone, la technologie Tend a explosé avec de nombreuses demandes pour des applications de traduction, de lecture de contenu, ou pour annoncer des nouveautés sur les réseaux sociaux de l'utilisateur. L'autre service que l'on propose est une voix spéciale pour une société. Aujourd'hui, les marques veulent se différencier et ne pas avoir une voix standard, mais une bien à elles, pour être le symbole de l'entreprise.

Antoine Kauffeisen (Acapela) "La synthèse vocale facilite la conception de modules d'e-learning"

Guides

Repères