Cocreator, Live captions… On a testé les nouveautés IA des Copilot+ PC de Microsoft

Cocreator, Live captions… On a testé les nouveautés IA des Copilot+ PC de Microsoft Introduits en mai par Microsoft, les Copilot+ PC sont disponibles à l'achat depuis ce mardi 18 juin. Le JDN a pu essayer les principales fonctionnalités IA présentées par Microsoft.

Ils sont annoncés par Microsoft comme le futur de l'informatique personnelle. Les nouveaux Copilot+ PC sont disponibles à l'achat depuis ce mardi 18 juin. La gamme Microsoft se décline autour du Surface Pro de 11e génération, à partir de 1 115 € et du Surface Laptop 7 à partir de 1 199 €. Les nouveautés IA annoncées par Microsoft devraient également arriver très prochainement, grâce à une mise à jour Windows, sur les PC des marques partenaires de Microsoft dotées d'un NPU (Dell, HP et Samsung notamment).

Le NPU, la puce qui change tout ?

Les nouveaux Copilot+ PC s'axent en effet autour d'un composant majeur le NPU, pour Neural Processing Unit, qui permet d'exécuter localement de manière plus efficace des modèles de machine learning et d'IA générative. La puce peut effectuer des calculs complexes impliqués dans le fonctionnement des réseaux de neurones artificiels. Dans le cas des nouveaux PC de Microsoft, les NPU sont fournis, pour l'heure, par Qualcomm. Ils sont dotés à minima, selon la gamme, de NPU de 40 TOPS, capable d'effectuer 40×10^12 opérations par seconde.

Avec ces NPU, l'inférence sera plus rapide et plus efficace énergétiquement que pourrait l'être un CPU ou un GPU. Le processeur et la carte graphique sont donc "déchargés" de l'inférence des modèles d'IA et de ML, permettant au PC une économie substantielle d'énergie. L'autonomie globale, sur un PC portable, n'en est que meilleure.

Dans le cadre d'un évènement de présentation à la presse, nous avons pu prendre en main des Copilot+ PC. Pour l'heure, les principales fonctionnalités IA semblaient encore s'abstenir du NPU mais Microsoft promet qu'une mise à jour en cours de déploiement permettra de recourir à 100% au NPU pour l'inférence.

Cocreator dans Paint : pour générer des visuels rapidement

Disponible dans le logiciel d'édition d'image phare de Windows Paint (redésigné pour l'occasion), Cocreator permet de créer facilement des images à partir d'un prompt et d'un croquis. Le principe est simple : il suffit de croquer rapidement, à la souris ou au stylo numérique, une forme ou un schéma très simple et d'ajouter un prompt, qui précise l'image attendue.

Nous dessinons par exemple un bonhomme en bâtons et demandons à l'IA de dessiner un homme. En quelques secondes, Cocreator génère alors un le dessin final : une silhouette d'homme, assez propre. Le résultat n'est pas exceptionnel. L'IA suit le schéma envoyé et génère une image globalement cohérente (voir ci-dessous) mais qui reste très simple loin d'une image générée par Midjourney. Les ressources du NPU ne permettent pas d'exécuter des modèles de text-to-image très poussés. Image creator permet également de sélectionner un style prédéfini à utiliser pour la génération d'image (Pixel Art, Photorealist…). Paint dispose également d'un outil plus classique nommé "Image Creator" permettant de générer une image entièrement avec un prompt.

Le résultat final généré par l'IA. BP / JDN © BP / JDN

Théoriquement la génération des images se déroule en local, grâce au NPU, mais dans la pratique, le système nécessite tout de même une connectivité à Internet. Les requêtes adressées à l'IA sont en partie traitées dans le cloud pour d'une part filtrer les requêtes inappropriées (NSFW) et d'autre part vérifier si l'image générée est conforme au droit d'auteur avant de la présenter à l'utilisateur (il est théoriquement impossible de générer l'image d'un M jaune sur un fond rouge pour reproduire le logo de Mcdonald's). Nous l'avons constaté, il est ainsi impossible d'utiliser Cocreator sans Internet.

Live Captions : la transcription en direct, en local

Fonctionnalité 100% locale et non dépendante du cloud, Live Captions permet de transcrire en direct l'ensemble des contenus audio en lecture sur l'ordinateur. Le texte est diffusé en direct sans latence sur l'écran de l'utilisateur. Captions est capable de transcrire et de traduire 44 langues vers des sous-titres, uniquement en anglais pour le moment. Microsoft prévoit toutefois d'inclure dans, de prochaines mise à jour, de nouvelles langues.

La transcription en directe affichée par Live Captions. © BP / JDN

Nous avons pu tester l'outil en live sur une vidéo YouTube : la transcription s'affiche en direct presque sans latence. Live Captions permet également de transcrire en direct depuis le microphone, toujours en local. Là aussi, le test se révèle assez bon. L'IA de Microsoft peine toutefois à comprendre avec précision le contexte de la discussion en présence de bruits environnants. Live Captions est encore loin d'un modèle Whisper d'OpenAI mais son fonctionnement on-device en fait un outil prometteur.

Windows Studio Effects : des effets de style sur webcam en direct

Windows Studio Effects permet, toujours grâce au NPU, d'appliquer des effets de style en direct sur le flux vidéo entrant de la webcam des Copilot+ PC. Floutage de l'arrière-plan, recadrage automatique, éclairage automatique du visage…  Windows Studio Effects applique les effets en direct. Nombre de ces effets de style sont déjà disponibles par défaut sur diverses solutions de visioconférence mais Windows Studio Effects permet de les exécuter directement sur le NPU plutôt que sur le CPU et ou le GPU. Un gain notable en matière d'efficacité énergétique pour le PC.

Windows Studio Effects offre en outre une fonctionnalité originale pour les présentations en visioconférence : Eye Contact. Eye Contact permet de virtuellement stabiliser le mouvement de vos yeux quand vous lisez vos notes. Vos interlocuteurs ne verront que vos yeux, fixes, en face de la caméra. Une fonctionnalité qui, dans la pratique, laisse place à un rendu final assez artificiel (vos yeux ne bougent pas pendant plusieurs secondes).

Recall, grand absent du lancement

C'était la fonctionnalité la plus attendue mais elle manque à l'appel. Recall permet, grâce à un enregistrement régulier de l'écran de l'ordinateur, d'interroger l'IA sur l'activité passée sur l'ordinateur. Par exemple après avoir planifié un voyage sur votre navigateur, vous pourriez interroger l'IA pour demander la liste des hôtels consultés pendant votre dernière heure. Initialement prévue en déploiement public, Recall sera destinée dans un premier temps aux seuls membres du programme Windows Insider. Microsoft a, en effet, retardé l'arrivée de Recall après de nombreux problèmes liés à la sécurité de l'outil. Pour l'heure impossible de connaitre la date exacte de lancement, mais le jour J ne semble pas imminent.

Avec ses Copilot+ PC, Microsoft acte l'arrivée de l'IA on-device sur ses appareils. En présentant Cocreator, Live Captions et Windows Studio Effects, la firme de Redmond entend démontrer les premières possibilités offertes par les NPU. On regrette cependant que Microsoft n'ait pas poussé ses capacités d'IA on-device plus loin. Un LLM inféré en local, comme Apple Intelligence le prévoit, aurait pu séduire de nombreux utilisateurs professionnels à la recherche d'une IA rapide, confidentielle et utilisable hors ligne.