Comment l'IA optimise votre visioconférence sans que vous le sachiez

Comment l'IA optimise votre visioconférence sans que vous le sachiez Optimisation de la qualité de l'image et du son, traduction automatique, création d'espaces virtuels partagés... L'intelligence artificielle améliore l'expérience utilisateur.

Depuis maintenant près de deux ans et la généralisation du télétravail, des professionnels du monde entier enchaînent les visioconférences du matin au soir. Bugs à répétition, larsens, image pixellisée, ils ont dû composer au début de la crise sanitaire avec des solutions qui n'offraient pas tout le confort de travail attendu pour un usage intensif. Depuis, les principaux acteurs du marché que sont Zoom, Microsoft, Google et Cisco Web ont fortement professionnalisé leurs outils en faisant largement appel aux technologies d'IA. Qu'il s'agisse d'optimiser la qualité de l'image et du son ou d'améliorer l'expérience utilisateur, leurs approches offrent de grandes similitudes.

Audio : réduire les bruits parasites

Le premier apport de l'IA ? L'optimisation du son. Quoi de plus perturbant que d'entendre la frappe au clavier d'un participant, l'environnement bruyant d'un open space ou la soufflerie de la climatisation d'une salle de réunion. Des algorithmes de deep learning réduisent ces bruits parasites en supprimant tous les sons ponctuels ou continus qui sortent du spectre de fréquences de la voix humaine.

"L'IA permet de concentrer le flux audio sur la personne qui prend la parole ou d'harmoniser le volume vocal des participants"

"Cette optimisation du son s'applique aussi bien aux postes individuels qu'aux salles de réunion", précise Xavier Hemery, head of collaboration technical expertise collaboration architecture chez Cisco. "L'IA permet également de concentrer le flux audio sur la personne qui prend la parole ou d'harmoniser le volume vocal des participants, quelle que soit la distance qui les sépare d'un appareil de conférence téléphonique."

Pour renforcer son expertise sur le sujet, Cisco a fait l'acquisition, en août 2020, de BabbleLab, un spécialiste américain de l'expérience audio.

L’IA de WebEx met au même niveau toutes les voix des participants, quelle que soit la distance qui les sépare de l’appareil de visioconférence. Elle différencie aussi le discours d’un intervenant du bruit de fond. © Cisco

Les solutions de visioconférence utilisent en outre des assistants vocaux pour composer un numéro ou démarrer une réunion. Zoom propose son propre agent personnel tout en prenant en charge les équipements connectés de Google Nest ou Amazon Alexa. Microsoft, de son côté, fait appel à son assistant maison, Cortana, pour gérer le pilotage par la voix des appareils agréés Teams dans les salles de réunion. L'assistant de Cisco Webex reprend, lui, la notion de skills, chère à Amazon, pour interagir avec des systèmes tiers.

Vidéo : la qualité pour tous

Après le son, place à l'image. L'IA doit garantir à l'utilisateur la meilleure qualité vidéo quel que soit son équipement et la qualité du réseau. Des algorithmes de compression et d'optimisation des flux vidéo entrent en jeu pour compenser les éventuels aléas techniques. "Pour économiser de la bande passante, le flux vidéo se concentre sur les personnes et non sur l'arrière-plan statique", explique François Familiari, senior sales engineer chez Zoom.

Fonction "smart gallery" de Zoom. © JDN / Capture

Google Meet propose, pour sa part, d'ajuster automatiquement la luminosité de l'image si l'environnement est mal éclairé. Sa fonction Autozoom permet, comme son l'indique, de zoomer sur le visage de l'utilisateur si l'IA juge qu'il est positionné trop loin de la caméra. Dans une salle de réunion, la reconnaissance faciale cadrera le visage du participant qui parle pour mieux saisir ses expressions. Le tracking vidéo permet aussi de le suivre s'il se déplace dans la salle.

"La reconnaissance faciale peut identifier un utilisateur, même s'il est muni d'un masque, en se basant sur l'annuaire d'entreprise"

"La reconnaissance faciale pourra identifier un utilisateur, même s'il est muni d'un masque, en se basant sur l'annuaire d'entreprise. Ce qui se révélera intéressant dans un contexte international où les interlocuteurs ne se connaissent pas toujours", complète Xavier Hemery. Dans le cadre du protocole sanitaire, le comptage des personnes présentes dans la salle permet, par ailleurs, de contrôler le respect des jauges.

D'autres algorithmes assurent le détourage des corps pour les restituer sur des fonds virtuels tandis que des filtres pourront affubler les visages d'une paire de lunettes ou d'une barbe virtuelle. Zoom propose même la fonction "touch up my appearence" qui lisse la peau du visage afin d'apparaître sous son meilleur jour. Dans le même esprit de gamification, la reconnaissance de formes permet d'afficher automatiquement une émoticon associée à un geste comme un pouce levé pour approuver un propos, ou une main brandie pour demander la parole.

Dans une organisation de travail en mode hybride, l'IA joue en outre un rôle clé. Paradoxalement, les participants qui ont fait l'effort de venir sur site sont de facto désavantagés. Ils apparaissent dans le même flux vidéo, parfois réduits à des têtes d'épingle pour peu qu'ils soient nombreux à l'image. La fonction baptisée "people focus" chez Cisco Webex ou "smart gallery" chez Zoom corrige le problème. Elle "découpe" les participants de la salle puis les replacent chacun dans une vignette individuelle comme s'ils étaient derrière leur PC.

Fonction 'immersive view" de Zoom. © JDN / Capture

Dans le même esprit, une autre vue, baptisée "immersive view" dans Zoom et "together mode" dans Microsoft Teams, regroupe tous les participants dans le même plan virtuel, à la manière d'une salle de classe ou d'un amphithéâtre. Autre fonction de Teams : la "dynamic view" organise dynamiquement l'affichage entre les vignettes des intervenants et le contenu qu'ils partagent.

Traduction et prise de note automatiques

Les plateformes de visioconférence sont appelées à devenir de vraies tours de Babel en permettant aux participants de choisir la langue commune de la réunion (typiquement l'anglais), qui sera sous-titrée dans la langue maternelle de chacun. En septembre dernier, Zoom a annoncé le support d'une douzaine de langues dans un premier temps puis d'une trentaine ensuite pour ses services de transcription automatique et de traduction en direct.

Les technologies liées au traitement du langage naturel permettent aussi d'identifier les temps forts (ou highlights) d'une réunion à partir de la détection de mots clés comme "décision" ou "agenda". Un système de chapitrage qui permet à l'utilisateur qui revisionne un enregistrement d'aller directement au passage qui l'intéresse. Intégrée à un module de chat, l'IA peut dans la même logique servir de modérateur en censurant les termes inappropriés ou les informations confidentielles afin de respecter le cadre légal et réglementaire.

Pour éviter le zoombombing (c'est-à-dire l'intrusion d'un hacker ou d'un troll dans une visioconférence censément être privée), Zoom a développé une IA qui scanne en continu les réseaux sociaux afin de détecter si le lien d'une session n'a pas été partagé publiquement. "L'administrateur est immédiatement alerté", précise François Familiari chez Zoom. "A lui de voir si ce partage est volontaire et, dans le cas contraire, s'il traduit une possibilité d'intrusion. Si c'est le cas, il pourra rappeler aux utilisateurs l'importance de recourir au mot de passe pour sécuriser les accès et d'activer la fonction salle d'attente."

En attendant le métavers...

Le futur de la visioconférence pourrait bien passer par le métavers. Des univers immersifs qui rendraient les réunions plus engageantes et inclusives en gommant encore plus fortement la distance physique. Microsoft et Cisco préparent tous deux des évolutions de leurs solutions sur le sujet. De son côté, Zoom a annoncé en septembre dernier un partenariat avec Oculus, propriété de Meta. L'éditeur ambitionne de porter sa fonction de tableau blanc virtuel dans Horizon Workrooms, l'outil de réunion de travail à distance de Facebook. Chaussés du casque et de la télécommande d'Oculus, les utilisateurs pourront alors interagir de manière gestuelle via le whiteboard de Zoom.

La fonction Oculus de Zoom prendra en charge la reconnaissance de gestes. © JDN / Capture