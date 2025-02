OpenAI et Convergence proposent tous deux un agent web capable d'arpenter le web et de réaliser des actions simples. Un premier pas pour l'IA agentique.

La bataille de l'agentique ne fait que commencer. Après Anthropic avec Computer Use en octobre 2024, OpenAI a dévoilé son propre agent web en janvier. Quelques jours après, c'est Convergence AI qui dévoile sa propre solution : Proxy 1.0. Un agent web gratuit (dans un premier temps) à l'état de l'art en navigation web. A l'heure d'écrire ces lignes, le 19 février, Operator et Proxy restent les meilleurs agents web du marché. Comparatif de ces deux solutions d'un nouveau genre.

Operator, Proxy : comment fonctionnent les agents web ?

Operator, développé par les équipes d'OpenAI, se base sur un navigateur web (une version de Chrome modifiée) appuyée par Computer-Using Agent" ou "CUA", un modèle d'IA spécialement conçu pour la navigation web. Concrètement, le modèle utilise les capacités de vision de GPT-4o avec un système de raisonnement avancé pour avancer étape par étape dans le navigateur. Clic, frappe clavier, scrollLe système est capable d'effectuer des recherches et de prendre des actions en toute autonomie, à partir d'un prompt en langage naturel.

Présenté par certains comme le DeepSeek européen, Convergence AI est une petite start-up fondée il y a moins d'un an à Londres, en juin 2024. Avec une levée de 12 millions en septembre 2024 et des ingénieurs issus de DeepMind, Meta et OpenAI, la petite entreprise s'est concentrée sur le développement de son agent web. Officiellement lancé en janvier, Proxy 1.0 surpasserait même d'un point Operator sur le benchmark WebVogager (capacité des agents d'IA à interagir avec des sites web réels).

© Capture d'écran / JDN

Après de nouvelles mises à jour le 19 février, l'agent serait maintenant capable d'une autonomie quasi-complète sur le web.

Operator vs Proxy 1.0 : le test du JDN

Pour tester les capacités de Operator et Proxy, nous soumettons aux agents trois prompts différents avec des tâches de navigation mais également des actions

Pour le premier test, nous demandons à l'IA de faire une veille d'actualité sur l'IA et d'envoyer par la suite une synthèse par mail.

Prompt : Tu vas faire une veille d'actualité, consulte les sites TechCrunch, VentureBeat et The Verge. Sélectionne les 5 actualités IA les plus importantes des dernières 24h. Génère un petit document avec la veille, et les principales actualités. Envoie le tout par mail à bpolge@ccmbenchmark.com avec comme objet 'Veille Tech [DATE DU JOUR]'.

Résultat des modèles à consulter ici.

Les deux modèles s'exécutent rapidement (avec une vitesse similaire). Operator prend en revanche le temps de lire article par article quand Proxy se contente du titre. Proxy prend alors beaucoup d'avance sur son concurrent. Lors de la première tentative, Proxy parvient à effectuer quasi parfaitement la veille mais ne l'envoie pas par mail. Nous devons le relancer pour lui demander d'envoyer le rapport par mail. Ce dernier demande alors les identifiants et mots de passe pour se connecter à Gmail, directement dans le chat, pratique ! Après le succès de l'authentification 2FA en validant sur notre mobile, Proxy 1.0 parvient bien à envoyer le mail.

De son côté, Operator demande à ce que l'utilisateur reprenne la main dans le navigateur pour se connecter à Gmail. Beaucoup plus lent sur la durée, Operator semble se perdre à plusieurs reprises dans les nombreux onglets ouverts. Mais l'IA d'OpenAI parvient toutefois à envoyer le mail final. Sur le contenu, la veille de Proxy et celle de Operator sont toutes deux pertinentes, ni plus ni moins.

Exemple d'une connexion à Gmail avec Proxy 1.0. © Capture d'écran / JDN

Pour le second test, nous demandons aux agents de créer un rapport des dernières failles de sécurité répertoriées sur le site de l'ANSSI au cours des 12 dernières heures, le tout sur Google Doc.

Prompt : Consulte les alertes et avis de sécurité des dernières 12h sur le site de l'ANSSI. Crée un document Google Drive détaillant chaque faille avec sa gravité, son impact et les recommandations.

Résultat des modèles à consulter ici.

Operator s'exécute rapidement et parvient à créer le fichier en moins de 5 minutes. De son côté, Proxy re-demande une authentification Google. Plus pénalisant encore, Proxy ne parvient pas à accéder au site de l'ANSSI en raison, certainement, d'un géo-blocage. Nous lui demandons alors d'utiliser les données d'un autre CERT. Proxy parvient alors à s'exécuter et produit son rapport. Les deux résumés sont brefs mais récapitulent les principales failles de sécurité. Un premier constat est à tirer : Operator semble mieux comprendre et anticiper les éventuels problèmes de navigation que Proxy. Il nécessite souvent moins d'intervention humaine.

Pour ce troisième test, nous demandons à l'IA d'identifier un sujet tendance sur X (jadis Twitter) et de poster un Tweet pertinent en lien avec cette dernière.

Prompt : Va sur les tendances Twitter France, identifie le sujet #1. Rédige un tweet engagé de 280 caractères maximum qui : donne un avis pertinent sur le sujet, utilise le hashtag tendance et ajoute un emoji adapté pour capter l'attention.

Résultat des modèles à consulter ici.

Operator parvient à identifier une tendance d'actualité : un événement Apple le 19 février. Il propose alors le tweet suivant : "Excité pour le #AppleLaunch ! ???? Hâte de découvrir les nouveautés. Rendez-vous le 19 février pour un aperçu du futur de la technologie. ???? #AppleLaunch" et demande par deux fois avant de le publier avec succès. De son côté, Proxy identifie une tendance sponsorisée de Betclic et propose un tweet promotionnel, en anglais : "???? Exciting news! Betclic partners with @FFRugby to boost French rugby's visibility from grassroots to professional level. Let's cheer for this promising collaboration! #HotWeekBetclic ????" Il parvient également à la poster.

Le prix, point faible d'OpenAI, encore et toujours

C'est le point faible d'OpenAI : le Prix. Pour l'heure Operator reste l'agent web le plus cher du marché. L'accès y est possible avec un compte ChatGPT pro à 200 dollars par mois. Une extension au comptes ChatGPT Plus et Enterprise n'est pas prévue avant plusieurs mois. De son côté, Convergence propose Proxy 1.0 gratuitement avec 5 sessions maximum par jour. Une version Pro est proposée à 20 dollars par mois avec possibilité de faire travailler l'agent de façon illimitée. Enfin, pour l'heure, ni OpenAI ni Convergence ne proposent un accès API à leur modèle.

Operator se positionne comme l'agent web le plus abouti techniquement. Sans être fondamentalement supérieur à son concurrent, l'agent d'OpenAI fait preuve d'une meilleure capacité à résoudre les problèmes de navigation et à anticiper les obstacles. Autre avantage notable, il utilise un navigateur dédié qui mémorise les identifiants, évitant ainsi les reconnexions fastidieuses requises par Proxy. Toutefois, OpenAI a implémenté de nombreux garde-fous qui nécessitent régulièrement une intervention humaine ou une confirmation des actions, limitant quelque peu l'autonomie promise par le concept d'agent web. De son côté, Proxy 1.0 se distingue quant à lui par son excellent rapport qualité-prix.

Avec quelques améliorations, notamment sur la gestion des authentifications et la résolution des problèmes de navigation, l'agent de Convergence constitue une alternative crédible à Operator, particulièrement pour les utilisateurs réticents à débourser les 200 dollars mensuels exigés par OpenAI.