OpenAI dégaine Operator, son agent IA qui prend le contrôle sur le web

Operator est capable d'automatiser les tâches complexes jadis réalisées par l'utilisateur dans son navigateur web.

La rumeur disait vrai. Deux jours après l'annonce du projet Stargate, OpenAI dévoile ce jeudi 23 janvier 2025 son premier agent d'intelligence artificielle conçu pour le web. Selon la définition d'OpenAI, un agent est une intelligence artificielle capable de travailler de manière autonome : on lui confie une tâche, il l'exécute. "Nous pensons que c'est une tendance majeure qui va impacter la façon dont les gens travaillent, leur productivité, leur créativité, ce qu'ils peuvent accomplir'", explique Sam Altman en introduction. Operator en est la première incarnation : un assistant doté de son propre navigateur web, capable de voir et d'interagir avec les pages comme le ferait un humain, que ce soit pour remplir un formulaire, commander des courses ou créer un meme.

Comment fonctionne Operator ?

Sous le capot, Operator est propulsé par un nouveau modèle baptisé "Computer-Using Agent" ou "CUA". Cette IA combine les capacités de vision de GPT-4o avec un système de raisonnement avancé, développé par apprentissage par renforcement. Concrètement, le modèle peut voir ce qui s'affiche à l'écran du navigateur Operator via des captures d'écran et interagir avec tous les éléments d'une interface graphique - boutons, menus, champs de texte - en utilisant un clavier et une souris virtuels.

L'interface de Operator dans ChatGPT. © Capture d'écran / JDN

Si le système rencontre un obstacle ou commet une erreur, il peut s'auto-corriger grâce à ses capacités de raisonnement. D'après OpenAI, CUA établit déjà de nouveaux records sur les benchmarks de navigation web automatisée WebArena et WebVoyager. En cas de blocage, l'agent n'insiste pas : il passe simplement la main à l'utilisateur.

Quels sont les premiers cas d'usage ?

Pour son lancement, Operator se concentre essentiellement sur les cas d'usage chronophages ou répétitifs. Il peut remplir des formulaires, commander des courses en ligne et même créer des memes. Pour démarrer, il suffit de décrire en langage naturel ce que l'on souhaite accomplir. L'agent prend ensuite le contrôle de son propre navigateur et exécute la tâche, en demandant l'approbation de l'utilisateur pour les actions importantes.

OpenAI s'est associée à plusieurs géants du web : DoorDash (livraison de repas), Instacart (livraison de courses), OpenTable (réservation de restaurants), Priceline (réservation de voyages), StubHub (billetterie d'événements) et Uber pour optimiser l'expérience sur les différentes plateformes. L'objectif est double : améliorer l'efficacité de l'agent tout en respectant les normes établies par ces services. OpenAI explore également le potentiel d'Operator dans les services publics. Un partenariat pilote avec la ville de Stockton, en Californie, vise à faciliter l'accès des citoyens aux services municipaux.

Un agent ultra-premium

OpenAI a déployé trois niveaux de protection pour encadrer son agent. Au premier niveau, Operator est programmé pour céder le contrôle à l'utilisateur lors des moments critiques : saisie d'informations sensibles comme des identifiants de connexion ou des données de paiement, résolution de CAPTCHA, ou validation finale d'une commande. Au second niveau, la protection des données : les utilisateurs peuvent effacer leur historique de navigation d'un clic et désactiver l'utilisation de leurs données pour l'entraînement du modèle. Enfin, OpenAI a mis en place des sécurités contre les sites web malveillants qui tenteraient de manipuler l'agent via des injections de prompts cachés ou du code malicieux. Un "modèle moniteur" surveille en permanence le comportement d'Operator et peut mettre en pause une tâche au moindre soupçon d'activité suspecte.

Operator n'est accessible qu'aux abonnés Pro (le niveau le plus élevé de ChatGPT à 200 dollars) connectés depuis les Etats-Unis, via la plateforme dédiée operator.chatgpt.com. OpenAI prévoit d'étendre progressivement l'accès aux abonnés Plus, Team et Enterprise. L'entreprise annonce également son intention de rendre disponible le modèle CUA via son API dans les prochaines semaines, permettant aux développeurs de créer leurs propres agents capables d'interagir avec des interfaces graphiques.