Xuedong Huang (Zoom) "Notre assistant intelligent couvre à la fois la réunion, le chat, l'e-mail et le document"

Le directeur technique revient sur l'approche AI-first de la plateforme de visioconférence et décrypte sa valeur ajoutée comparée à celles de Microsoft et de Google.

JDN. Quelles sont actuellement les fonctionnalités d'IA proposées par Zoom ?

Xuedong Huang est chief technology officer de Zoom. © Zoom

Xuedong Huang. L'IA phare de Zoom réside dans son assistant AI Companion. Si vous l'activez, il vous épaulera dans la gestion des visioconférences. Une fois la réunion terminée, il en fera une retranscription de manière multimodale en prenant en compte à la fois la parole, mais aussi les diapositives, ou ce que vous avez écrit sur notre tableau blanc interactif. Il identifiera les points clés et les éléments à traduire en actions et en tâches. Ces actions et ces tâches représentent la valeur ajoutée la plus précieuse d'AI Companion. L'assistant est conçu pour les accompagner sur l'ensemble de leur cycle de vie, et ce dans tous les recoins de la plateforme. Dans Zoom Docs, les actions seront par exemple reprises pour dresser un premier brouillon qui facilitera ensuite la rédaction de rapport.

Nous développons ainsi une vision super agentique du flux d'information. Une vision que nous avons introduite en septembre 2023 alors que la notion d'agent ne s'était pas encore imposée sur le marché. Au final, l'ensemble de ce process d'IA ne sera jamais précis à 100%. Mais un assistant humain ne sera pas non plus parfait. On peut estimer qu'il atteindra une précision de 90%, contre 80% pour notre assistant. Ce qui est déjà exceptionnel sur le marché.

Quels sont les modèles que vous utilisez ?

Nous avons d'abord recours à un petit modèle d'IA fait maison. Ensuite, nous évaluons via le module Zoom Scorer si ce modèle est efficient dans le contexte du client. Si ce n'est pas le cas, nous passons à un modèle plus avancé. Nous allons alors piocher dans les technologies d'OpenAI, de Google, d'Anthropic, de Meta ou de Mistral. C'est une logique d'inférence en temps réel qui combine plusieurs modèles ensemble pour obtenir une meilleure précision et réduire les coûts. Cette logique est comparable à celle de DeepSeek-R1. Sachant que nous avons mis en œuvre notre technologie plus d'un an auparavant.

Qu'en est-il de l'intégration de l'IA générative à l'interface utilisateur de Zoom ?

Nous essayons de combiner une interface conversationnelle comme ChatGPT avec une interface graphique classique comme celles définies historiquement par Xerox et Apple. Nous les combinons de manière fluide, en permettant à l'information de circuler de l'une à l'autre et réciproquement. Sur la gauche, nous affichons la visioconférence, le chat ou un document Zoom Docs, et sur la droite notre assistant qui permet d'interagir avec toutes ces briques.

Nous sommes donc en train de révolutionner l'interface utilisateur basée sur l'IA, ce que j'appelle l'interface graphique AI-first qui exploite parfaitement ces deux approches. L'objectif n'a pas encore été atteint, mais c'est bien notre but.

Partant de là, quelle est l'architecture de Zoom ?

Zoom se compose d'un backend avec la logique multimodèle déjà évoquée, d'une interface utilisateur, et d'un processus de suivi et d'exécution des tâches. Ce dernier se découpe lui-même en trois éléments : la mémoire qui permet à AI Companion de se souvenir des réunions passées, une orchestration des workflows d'informations, et, enfin, un moteur d'exécution qui permet de réaliser des tâches en votre nom, soit de manière autonome, soit avec votre confirmation proactive.

Quel est votre principal facteur de différentiation comparé aux IA intégrées à Microsoft 365 et Google Workspace ?

Dans sa logique de suite bureautique, Microsoft a lancé des assistants Copilot rattachés à chacune des briques de sa plateforme : Word, Excel, PowerPoint. C'est une approche très puissante. Google a suivi le même chemin en intégrant son IA Gemini à sa propre suite numérique. Mais là encore, dans une logique très cloisonnée. Si vous utilisez Gemini avec Google Docs, vous ne pouvez pas rechercher des informations sur le web. Pour ce faire, vous devrez quitter Gemini et utiliser un moteur de recherche.

"AI Companion fonctionne à la fois avec vos données de travail et avec les informations disponibles sur le web"

Avec Zoom Workplace, nous souhaitons proposer la première plateforme nativement IA pleinement intégrée. Dans cette logique, notre assistant intelligent couvre à la fois la réunion, le chat, l'e-mail et le document. Le tout dans une approche sans couture. L'objectif étant évidemment de proposer un environnement de travail plus efficace synonyme de gain de temps. Zoom AI Companion fonctionne aussi bien avec Zoom Meetings qu'avec Zoom Chat ou Zoom Docs.

Lorsque vous avez besoin d'informations, AI Companion fonctionne par ailleurs à la fois avec vos données de travail et avec les informations disponibles sur le web. Sur ce point, nous travaillons avec le moteur de recherche Perplexity que nous intégrons à notre assistant toujours dans une approche sans couture. Nous conservons là encore le cap d'une approche pleinement intégrée de l'IA.

Dans l'intelligence artificielle, la question de l'hébergement des données peut être clé. Proposez-vous un hébergement de Zoom en Europe ?

Nous avons des clusters disponibles au sein de l'Union Européenne. Si les clients européens le souhaitent, ils peuvent donc héberger leurs données localement. Nos infrastructures sont basées sur le cloud d'Amazon. Nous avons également une part significative de nos 7000 salariés basés en Europe, dont une partie en France. Un segment de notre pile d'IA, notamment l'assistant AI Companion, a en outre été développé en Allemagne, notamment depuis un hub d'innovation installé à Karlsruhe.

Xuedong Huang est chief technology officer de Zoom. Avant de rejoindre Zoom, il a travaillé pendant 30 ans chez Microsoft où il a notamment été CTO de l'offre cloud Azure AI. A ce titre, il a notamment œuvré à l'intégration des technologies d'OpenAI au cloud de Microsoft. Xuedong Huang est membre élu de la National Academy of Engineering et de l'American Academy of Arts and Sciences. Il est titulaire d'un doctorat de l'Université d'Édimbourg, d'une maîtrise à l'Université Tsinghua et d'une licence à l'Université du Hunan.