Le test du JDN : comment faire piloter votre PC par une IA avec Computer use
C'était encore il y a quelques années un scénario réservé aux films de SF : l'IA prenant le contrôle d'un système informatique. C'est désormais une réalité. Dévoilée le 22 octobre par Anthropic, Computer use donne la possibilité à Claude 3.5 Sonnet, son dernier modèle d'IA, de contrôler une interface graphique utilisateur (GUI) d'ordinateur. Une fonctionnalité prometteuse même si elle mérite encore quelques ajustements pour être pleinement opérationnelle.
Comment fonctionne Computer use ?
Computer use est en réalité une API intégrée dans Claude qui permet au modèle d'utiliser des outils pour voir et communiquer avec l'ordinateur. L'utilisateur commence par donner au modèle un prompt où il décrit la tâche attendue. Exemple : "Télécharge une image de chat sur le web et enregistre là sur le bureau". Le modèle va alors se servir d'un outil de capture d'écran pour comprendre l'interface (l'image est adressée au modèle).
Claude calcule ensuite les coordonnées précises d'un bouton (par exemple l'icône du navigateur web) et va ordonner au pointeur de s'y rendre et de cliquer dessus. Pour vérifier qu'une action s'est bien produite, le modèle prend une nouvelle capture d'écran et poursuit ainsi de suite sa navigation jusqu'à terminer la tâche demandée par l'utilisateur.
Un fonctionnement dans la théorie assez simple mais qui prend - dans la réalité - plusieurs minutes. Les interactions entre l'IA et l'ordinateur sont encore très lentes.
Comment tester dès à présent Computer User sur Windows ?
Pour expérimenter Computer Use, encore en Beta, Anthropic propose un guide de démarrage rapide sur GitHub. Ce dernier utilise un conteneur Docker (un environnement conteneurisé) avec un environnement de bureau Linux virtualisé ainsi qu'un accès VNC couplé à une boucle d'agent Python qui communique avec l'API Computer use d'Anthropic. Le tout se contrôle via une interface web en local, sur votre PC.
La première étape consiste à installer Docker, le plus simple étant d'installer Docker Desktop en téléchargeant l'exécutable depuis le site web. Une fois Docker installé, il sera nécessaire de récupérer votre clé d'API depuis la Console Anthropic. Enfin il temps de démarrer le Docker et le serveur web avec l'interface de contrôle. Ouvrez l'invite de commandes sous Windows (CMD) et entrez la commande suivante en prenant garde de bien remplacer VOTRECLE par votre clé personnelle d'API Anthropic.
docker run -e ANTHROPIC_API_KEY= VOTRECLE -v %USERPROFILE%\.anthropic:/home/computeruse/.anthropic -p 5900:5900 -p 8501:8501 -p 6080:6080 -p 8080:8080 -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest[JEJ1]
Enfin pour accéder à l'interface de contrôle, rendez-vous sur http://localhost:8080/
Une interface facile à prendre en main
L'interface de démonstration d'Anthropic est très simple à manipuler. A gauche, votre chat avec Claude 3.5 Sonnet, à droite une vue de l'environnement graphique simulée. Demandez simplement à l'IA l'action à effectuer. Le prompt de départ doit être à la fois précis et détaillé. Des instructions explicites des différentes tâches à exécuter sont attendues par le modèle. Anthropic recommande également de rappeler au modèle de prendre des captures d'écran à chaque étape. Enfin, l'entreprise préconise l'utilisation explicite des raccourcis clavier plutôt que la souris pour certains éléments d'interface complexes (menus déroulants, barres de défilement).
Exemple d'un prompt efficace qui demande à l'IA de lire un article et d'en faire un résumé dans un Google Doc.
Je veux créer un nouveau document dans Google Docs et y écrire un résumé de cet article [URL]. Voici comment procéder : Avant chaque action majeure, prends une capture d'écran et confirme ton état actuel. Etapes détaillées : Ouvre Chrome et va sur docs.google.com Clique sur le bouton '+' pour nouveau document Utilise Ctrl+T pour ouvrir un nouvel onglet et accéder à l'article Lis l'article, puis reviens au document (Alt+Tab) Rédige un résumé de 3 paragraphes Instructions spécifiques : Utilise les raccourcis clavier plutôt que la souris pour la navigation entre onglets Vérifie que le document est bien créé avant de commencer à écrire Confirme explicitement : 'J'ai vérifié que le document est créé et je peux commencer à écrire' Pour le défilement de l'article, utilise PgDown plutôt que la molette Après chaque étape majeure : Prends une capture d'écran Explique ce que tu as fait : 'Je viens de...' Confirme que le résultat est correct : 'J'ai vérifié que...'
Lors de nos différents tests, le mode Computer use se révèle assez aléatoire. Les captures d'écran adressées au modèle ne parviennent pas à lui donner une assez bonne compréhension de l'ensemble de l'environnement pour agir en autonomie totale sur des tâches complexes. Par exemple, en appliquant le prompt précédent avec un article scientifique de PhonAndroid, l'IA ne parvient pas à accéder au site en raison de la fenêtre de consentement aux cookies… Elle trouve une solution alternative : rechercher un article sans bannière sur Google.
Enfin, une fois l'article lu par le modèle, la phase d'écriture dans Google Drive est également légèrement défectueuse. Le modèle écrit dans le vide avant de corriger le tir et d'ouvrir l'onglet de Google Doc. Pour finir, notons que non seulement les accents sont absents du texte généré, mais les lettres qui devaient en porter ont également disparu (une problématique de clavier, sans doute).
L'épineuse question du prix
Autre bémol, Computer use s'avère particulièrement onéreux. Lors de nos tests, une simple session de moins de 5 minutes a généré une facture d'environ 60 centimes. Ce coût s'explique par le fonctionnement même de la technologie : chaque action de Claude, aussi minime soit-elle, déclenche une nouvelle requête API facturée.
A cela s'ajoutent systématiquement des frais fixes, notamment avec les outils utiles pour la capture d'écran, les frappes clavier ou le déplacement du curseur notamment (jusqu'à 700 tokens chacun). Le modèle doit également analyser en permanence des captures d'écran, vérifier ses actions et souvent faire plusieurs tentatives pour réussir une tâche simple. Ainsi, une action basique comme "ouvrir un navigateur et aller sur Google" peut nécessiter des dizaines d'allers-retours avec l'API, chacun facturé individuellement.
De nombreuses limitations
Computer use représente une approche novatrice. En permettant à Claude d'utiliser un ordinateur comme un humain, Anthropic ouvre la voie à de nouvelles possibilités d'automatisation. Toutefois, dans son état actuel, la technologie souffre de limitations importantes : le modèle peine à interagir avec précision avec les petits éléments d'interface (boutons, menus déroulants), ses actions sont particulièrement lentes, et son architecture basée sur des allers-retours constants avec l'API le rend très coûteux.
Une approche plus optimisée, avec un modèle spécialisé capable de traiter un flux vidéo en temps réel plutôt que des captures d'écran statiques, pourrait grandement améliorer la réactivité du système. L'avenir de cette technologie dépendra donc largement de la capacité d'Anthropic et d'autres laboratoires à développer des modèles plus légers et spécialisés.
Le cas d'Apple, ayant déjà développé plusieurs modèles dans la compréhension des interfaces avec sa série Ferret, semble ainsi très prometteur.