L'IA qui parle comme un humain : les secrets du standard téléphonique de la ville de Plaisir
Le standard téléphonique de la ville de Plaisir dans les Yvelines est aujourd'hui semi-automatisé par un assistant dopé à l'IA générative. Explications.
"Bonjour, je suis Optimus, l'assistant virtuel de la ville de Plaisir". C'est la première phrase que peuvent entendre les citoyens de la commune de Plaisir dans les Yvelines quand ils contactent la municipalité par téléphone. Pour faire face à ses 450 appels quotidiens la ville a mis en place un agent virtuel capable de répondre à la plupart des questions des usagers en langage naturel. Une solution novatrice basée, en majorité, sur l'IA générative. Cas d'usage, limite, orchestration technique… On vous explique le fonctionnement de ce nouveau dispositif.
Une réponse à 284 questions
Développé en 2022 Optimus, l'assistant virtuel de Plaisir, est capable depuis avril 2024 d'échanger de manière quasi-humaine avec ses interlocuteurs. L'agent virtuel décroche 24h/24 et 7j/7 les nombreux appels quotidiens. Il est capable de répondre à plus de 284 questions différentes et peut rebondir sur les demandes de l'usager. Pour les questions plus complexes qu'il ne peut pas traiter seul, Optimus est capable de les qualifier avant de transférer l'appelant aux agents humains.
Dans la majorité des cas, l'agent est capable d'apporter une réponse pertinente en moins de deux minutes. Le système peut également déclencher des actions comme l'envoi de sms pour apporter une information supplémentaire. Et les résultats sont là : depuis sa mise en place l'assistant a permis d'optimiser le taux de réponse aux usagers le faisant passer à 92% contre 30% auparavant.
Une architecture complexe, une latence réduite
Pour déployer Optimus, les équipes de Plaisir ont fait appel au service de YeldaAI, une start-up spécialisée dans l'intelligence artificielle vocale au service de la relation clients. YeldaAI qui travaille déjà avec Fnac Darty, Sodebo, Eiffage ou encore la BNP, a développé une savante orchestration de modèle pour développer l'agent virtuel. Le processus se déroule en trois grandes étapes : la transcription, la génération d'une réponse textuelle et la génération vocale de la réponse.
Pour la transcription de la question de l'usager, YeldaAI utilise plusieurs modèles de text-to-speech adapté à différents cas d'usage. "Dans certains contextes, la transcription peut s'avérer plus complexe qu'il n'y paraît. Un cas intéressant est celui de l'épellation d'une plaque d'immatriculation. Lorsqu'une personne hésite et dit "euhhh", il faut distinguer s'il s'agit de la lettre E ou d'une simple hésitation. Autre exemple, lorsqu'une personne dicte son adresse e-mail, elle peut mélanger prononciation normale et épellation. Notre système doit être capable de distinguer ces différents modes d'énonciation et de les combiner correctement.", illustre Thomas Guenoux, CEO de YeldaAI. Whisper d'OpenAI et plusieurs autres modèles sont alors utilisés pour saisir les différentes nuances.
Une fois la requête transcrite, vient l'analyse et la génération de la réponse. Assez classiquement c'est ici un LLM qui vient analyser la requête utilisateur, et y apporter une réponse en se basant sur les données mises à disposition. "Nous utilisons à la fois des solutions propriétaires bien connues d'OpenAI et Anthropic, et des modèles open source de Mistral ou Meta", explique Thomas Guenoux. Le choix dépendra directement de l'accointance de l'entreprise ou l'administration souhaitant déployer le système pour une technologie open source ou propriétaire. A noter que les requêtes adressées au modèle sont préalablement nettoyées des éventuelles données personnelles rendant ainsi l'orchestration "RGPD by design".
Enfin pour la réponse, YeldaAI se base sur plusieurs modèles de text-to-speech notamment, mais sans s'y limiter, ceux du français Voxygen. Le plus complexe étant que l'orchestration du modèle nécessite une latence minimale. Ainsi, l'ensemble du système repose sur un flux en streaming. "Le LLM analyse en continu le flux de la conversation. Une fois que nous avons généré une réponse potentielle, nous passons à l'étape de la synthèse vocale. Celle-ci est également réalisée en streaming. Concrètement, dès que le système commence à rédiger la réponse, nous lançons la synthèse vocale et commençons à diffuser la voix. Ainsi, la phrase peut commencer à être prononcée avant même que sa génération complète ne soit terminée", détaille encore Thomas Guenoux.
Une infrastructure flexible
La force du système réside dans sa capacité d'adaptation en temps réel. Grâce la flexibilité du Cloud, le système est capable de s'adapter et de déployer des ressources hardwares supplémentaires si de nombreux usagers appellent en même temps. "Que ce soit pour gérer 1000, 2000 ou même 5000 appels simultanés, notre infrastructure s'adapte automatiquement. Il n'y a donc pas de limite pratique à notre capacité de traitement des appels", assure le CEO de l'entreprise. Enfin, pour réduire encore la latence, l'entreprise suit de près le développement des nouveaux modèles multimodaux, à l'image de Moshi, développé par Kyutai, que Thomas Guenoux qualifie de "très prometteur".
Des progrès qui devraient encore participer à la démocratisation des agents IA de téléphonie. Pour autant, le responsable de YeldaAI l'assure, l'impact sur l'emploi ne sera pas forcément négatif. "Pour des organisations comme les mairies, il s'agit avant tout d'améliorer la qualité de service en assurant un taux de réponse de 100%. Les agents humains restent essentiels, mais leur rôle évolue. Ils se concentrent désormais sur les interactions nécessitant une véritable valeur ajoutée humaine", rassure-t-il. Et de conclure : "A Plaisir, cette évolution est généralement bien accueillie, les agents percevant l'IA comme un nouveau collègue qui les assiste."