Microsoft a dévoilé des fonctionnalités basées sur l'IA générative dans Windows ainsi qu'une nouvelle gamme d'appareils.

Windows fait le plein d'IA. Microsoft organisait ce 20 mai un événement spécial sur son campus pour présenter une nouvelle catégorie de PC Windows conçus pour l'IA : les Copilot+ PCs, qui embarquent un Windows boosté à l'IA générative. Des machines disponibles à la commande sur le site Microsoft dès aujourd'hui et en magasin à partir du 18 juin 2024. Dans la continuité des annonces d'OpenAI et comme à son habitude, Microsoft a également annoncé l'intégration des derniers-nés présentés par la start-up californienne. On fait le point.

Recall : une IA à la mémoire photographique

Principale nouveauté de Windows, Recall s'annonce comme une petite révolution. L'outil est pensé comme une intelligence artificielle omnisciente. Grâce à un enregistrement continu de l'écran (capture d'écran toutes les X secondes), l'utilisateur va pouvoir interroger Recall sur son activité passée à l'écran. Toutes les actions entreprises par l'utilisateur sont loggées. Recall permet de naviguer dans une chronologie pour retrouver le contenu nécessaire, dans n'importe quelle application, site web ou document, et d'utiliser des instantanés intelligents pour suggérer des actions à réaliser.

D'un point de vue technique, Recall tire parti de la puissance des processeurs et des multiples modèles d'IA de pointe intégrés aux PC Copilot+, notamment plusieurs des modèles de langage de Microsoft. Le cœur de Recall est un "index sémantique personnel" construit et stocké entièrement sur l'appareil de l'utilisateur. Ce système organise les informations selon les relations et associations propres à chaque utilisateur. Microsoft a conçu Recall de manière à ce que le semantic index personnel soit construit et stocké entièrement sur l'appareil de l'utilisateur. Celui-ci conserve le contrôle total, pouvant supprimer des instantanés, ajuster les paramètres de sauvegarde et même mettre la fonctionnalité en pause.

L'intégration de GPT-4o dans Windows

Après l'annonce par OpenAI de GPT-4o, Microsoft emboite le pas et annonce l'arrivée prochaine de GPT-4o dans Copilot. Grâce aux capacités avancées du LLM, Copilot pourra comprendre plus finement le contexte et le sens des échanges, offrant ainsi une expérience d'interaction plus intuitive et personnalisée. Le modèle devrait arriver dans les toutes prochaines semaines, annonce Microsoft. A noter que Copilot sera accessible par un simple appui sur un bouton dédié sur les claviers. Copilot semble être l'une des rares intégrations d'IA générative qui ne soit pas déployée en local.

En plus de ses capacités d'interaction écrite, Copilot intégrera également des fonctionnalités avancées de reconnaissance et de synthèse vocale. Les utilisateurs pourront ainsi dialoguer naturellement avec l'assistant, en lui donnant des instructions orales ou en recevant des réponses vocales. Pour illustrer ces nouvelles possibilités, Microsoft a présenté une démonstration, où un utilisateur jouait à Minecraft tout en étant guidé à la voix. Surprenant.

Cocreator : un générateur d'images par IA

Une autre annonce majeure de l'événement est Cocreator, une expérience inédite d'IA intégrée aux applications créatives Windows comme Paint et Photos. Grâce aux puissants processeurs NPU (Neural Processing Unit) des PC Copilot+, Cocreator permet de générer des images en combinant des coups de crayon à main levée et des prompts. Les unités de traitement dédiées à l'IA permettent d'exécuter localement les modèles sans avoir à recourir au cloud. Au fur et à mesure que l'utilisateur itère, l'image générée se raffine. Cette approche locale offre plusieurs avantages selon Microsoft. Elle élimine les problèmes de latence et de confidentialité liés à l'utilisation d'un service distant. Les utilisateurs peuvent itérer rapidement sur leurs créations, l'IA ajustant en permanence les résultats pour les faire correspondre toujours mieux à leur vision initiale.

Live Captions : la traduction en temps réel

Live Captions permet d'ajouter à tout contenu audio passant par le PC des sous-titres anglais en temps réel, et ce de manière transparente dans toutes les applications. Grâce à des modèles d'IA avancés, Live Captions peut traduire instantanément les discours provenant de plus de 40 langues différentes vers l'anglais, et ce même lorsque l'appareil est déconnecté d'Internet.

La fonctionnalité s'appuie, comme Cocreator, sur les capacités de calcul des processeurs NPU pour assurer une transcription et une traduction très réactives, sans latence ni interruption.