Dans les coulisses techniques d'Alexa+, "l'une des IA les plus complexes au monde"

Dans les coulisses techniques d'Alexa+, "l'une des IA les plus complexes au monde" Alexa+ repose sur une orchestration (très) complexe de plus de 70 modèles spécialisés, à la fois dans le cloud et dans l'appareil.

"Transformer vos demandes en actions." C'est l'ambition, martelée par Amazon, de la nouvelle génération d'Alexa+. L'assistant vocal, intégré sur l'ensemble de la gamme d'appareils connectés Echo, s'apprête à connaître sa plus grande transformation depuis son lancement en 2014. Les avancées récentes en intelligence artificielle permettent désormais à Alexa+ de comprendre le contexte utilisateur, de mener des échanges naturels et d'effectuer des actions concrètes au nom de l'utilisateur. Un système, qu'on peut sans aucun doute qualifier d'agentique, qui repose sur une orchestration (très) complexe d'IA spécialisées.

Alexa+ doit permettre aux utilisateurs de bénéficier d'un véritable assistant personnel pro-actif. L'IA d'Amazon va pouvoir orchestrer des tâches complètes dans le monde réel, au-delà de la simple réponse à des questions factuelles. Par exemple, le système pourra planifier un dîner familial en tenant compte des restrictions alimentaires de chaque membre du foyer, composer un menu adapté, commander les ingrédients nécessaires et organiser la livraison. Le tout en ayant en mémoire l'ensemble du contexte personnel de l'utilisateur (localisation, nombre d'enfants, préférences alimentaires, agenda…).

Comment fonctionne techniquement Alexa+ ?

L'architecture d'Alexa+ est, selon Tom Butler, principal scientist chez Amazon, "l'une des applications d'IA les plus complexes actuellement en production dans le monde". Cette complexité découle directement de sa capacité à traiter simultanément des entrées multimodales (voix, texte, image et vidéo) puis à orchestrer des actions dans le monde réel via des centaines d'API tierces, avant de restituer une réponse à travers des canaux de sortie visuels, textuels ou vocaux.Le système repose sur plusieurs LLM centraux. Amazon reste discret sur l'identité précise des LLM mobilisés par Alexa+, mais confirme que l'architecture s'appuie principalement sur des modèles disponibles via Amazon Bedrock, sa plateforme d'accès à des modèles de fondation tiers.

Le tout est augmenté par plus de 70 modèles spécialisés additionnels, chacun finement ajusté pour accomplir des tâches spécifiques. "Nos modèles spécialisés sont calibrés pour effectuer des opérations précises telles que la synthèse de contenu, la compréhension de contenus visuels, ou encore du retrieval sur des contenus spécialisés", explique Tom Butler. Le système est ainsi capable de déterminer en temps réel quels modèles activer selon la nature de la requête utilisateur, d'exécuter les calculs en parallèle sur l'ensemble des modèles sélectionnés, puis d'agréger les résultats pour générer une réponse cohérente et contextualisée.

Enfin pour la partie action dans le monde réel, Alexa+ repose sur plus d'une centaine d'API tierces. Pour maintenir une latence compatible avec une conversation naturelle, Amazon utilise "l'exécution spéculative." En clair, le système anticipe la requête de l'utilisateur et lance préventivement les calculs nécessaires. Enfin Alexa+ repose sur un système de prompt caching, où les portions de prompt communs sont précalculées, pour gagner encore en rapidité et économiser du compute.

La difficile internationalisation d'Alexa+

Si elle permet des communications plus naturelles, l'IA générative n'apporte pas que des solutions. "Malgré tous les progrès en IA générative, les LLM demeurent principalement entraînés sur des données en anglais", rappelle Tom Butler. Or cette asymétrie dégrade les performances dès que le système fonctionne dans d'autres langues. L'exemple de la planification d'un dîner familial illustre parfaitement cette difficulté, "même les LLM les plus puissants rencontrent davantage de difficultés avec cette tâche en espagnol qu'en anglais", explique le scientifique d'Amazon. Dans les langues davantage sous-représentées, le problème est encore plus important.

Pour pallier cette limitation, les équipes d'Amazon ont contourné le problème en utilisant des techniques de transfer learning. "Très concrètement, nous montrons explicitement à Alexa comment transformer une requête en une suite d'actions concrètes qu'elle peut exécuter dans le monde réel, dans la langue de l'utilisateur", détaille Tom Butler. Les modèles apprennent ainsi à décomposer la demande, sélectionner les APIs pertinentes, générer les arguments nécessaires et enchaîner ces appels avec une grande précision. Et lorsqu'Alexa+ progresse dans une langue comme l'italien, "ces améliorations se reportent partiellement sur d'autres langues proches, comme le portugais et l'espagnol." Un phénomène de transfert croisé qui permet à Alexa+ de gagner en fiabilité sans réentraîner entièrement les modèles pour chaque langue.

Amazon a d'ailleurs entamé son déploiement international par le Mexique, sans communiquer de calendrier précis pour les autres marchés. Selon nos informations, Alexa+ ne devrait arriver en France qu'en 2026, le temps pour les équipes d'Amazon de finaliser les adaptations linguistiques et d'intégrer les spécificités culturelles françaises au système.