Tutoriel : comment automatiser Google Chrome avec Nanobrowser et Gemini

Bien configurer le LLM et présenter un prompt clair sont essentiels mais l'utilisation de cette extension Chrome est simplissime.

Les tentatives de faire de l'IA un utilisateur humain, capable de cliquer, d'aller chercher des informations, d'analyser et de voir en temps réel ce qui s'affiche sur son navigateur se multiplient. On pense par exemple à Operator d'Open AI, à l'agent Computer Use d'Anthropic dans Claude AI ou au Project Mariner dans Gemini 2.0. Leur impact sur la productivité et l'expérience utilisateur devrait être non négligeable.

Un autre outil prometteur pointe le bout de son nez : Nanobrowser. Cette extension Chrome offre une automatisation web open source basée sur l'IA. Elle permet d'exécuter des workflows multi-agents directement depuis un navigateur, Chrome ou Edge, selon la documentation officielle de GitHub. Elle offre la possibilité de travailler en local, ce qui est pratique pour conserver la confidentialité des données, et un grand choix de LLM avec lesquels travailler. Preuve de sa notoriété naissante, elle possède également à l'heure actuelle plus de 7 000 étoiles sur GitHub.

Une installation rapide

L'outil est facile à utiliser et à installer. Pour le mettre en place, il suffit d'installer l'extension, de choisir son LLM et de demander au modèle d'exécuter la tâche. Première étape donc, l'installation. Rendez-vous sur la page Chrome Web Store de Nanobrowser et ajoutez l'extension à Chrome. Nous cliquons ensuite sur la roue dentelée, en haut à droite de l'interface de l'extension, pour accéder aux paramètres.

Nous allons configurer nos LLM dans la section Models. Pour nos tests, nous allons utiliser Gemini. Celui-ci est intéressant, notamment pour sa capacité de détection dans une image. Plus techniquement, comme le note la firme de Mountain View : "à partir de Gemini 2.5, les modèles ne détectent pas seulement les éléments, mais les segmentent également et fournissent leurs masques de contour."

Pour l'intégrer à Nanobrowser, nous nous servons d'une clef API, disponible sur AI Studio. Celle-ci est intégrée à l'extension Chrome en cliquant sur "+ Add New Provider" puis sur "Gemini API key."

Une fois celle-ci renseignée, nous sélectionnons le modèle à utiliser pour les différents agents : Navigator, Planner, Validator et le Speech-to-Text Model. Ceux-ci collaborent pour réaliser des flux de travail Web complexes. D'après nos tests, gemini-2.5-flash-05-20 est le modèle le plus efficace, notamment en termes de latence. Il semble en effet davantage préconisé que Gemini 2.5 Pro dans ce genre de tâche, où la réactivité et une consommation minimale de ressources sont des éléments clés.

Autres éléments à travailler pour chaque modèle dans cette section, la température et le Top P. Comme sur les paramétrages par défaut, nous sélectionnons une température basse pour les trois modèles : 0,7 pour le Planner, 0,3 pour le Navigator et 0,1 pour le Validator. Objectif : générer des réponses précises. Nous baissons le Top P, assez élevé dans les réglages d'origine (0,9 pour le Planner, 0,85 pour le Navigator et 0 ,8 pour le Validator) à 0,5 pour les trois. Le but : miser davantage sur l'exactitude.

Un prompt direct et précis

Une fois ces réglages effectués, nous passons à la partie prompt. A partir d'une seule ou de plusieurs phrases, Nanobrowser est capable d'effectuer des tâches impressionnantes. Exemple de prompt relativement simple : " trouve le dernier article du JDN ". Il permet de mieux comprendre la mécanique derrière le travail effectué par Nanobrowser et Gemini.

On voit que le prompt effectué dans le chat de Nanobrowser amène l'entrée en jeu des différents agents. Planner divise les différentes besognes, Navigator effectue des actions sur les pages Web et Validator donne le résultat final. Leurs actions sont mentionnées dans la sidebar de droite. Notons que lors de celles-ci, différents éléments de la page Web peuvent laisser apparaître des zones de couleurs et des numéros associés aux différentes sections. Cela aide notamment les agents à repérer les différentes sections et à mieux interagir avec elles. Attention à la qualité des résultats obtenus. Dans ce cas, la recherche n'a pas été assez poussée pour trouver les différents articles.

Autre exemple de prompt, un peu plus difficile, pour effectuer des achats de façon plus éclairée : "trouve une raquette Aero Pure Drive homme non cordée à moins de 250 euros sur le site de Babolat." La difficulté de la tâche amène les agents à mettre environ 5 minutes pour répondre. Lors de l'exécution de celle-ci, on observe que le Planner et le Navigator travaillent de concert. Lorsqu'ils rencontrent un obstacle, l'un peut s'autocorriger et l'autre prend le relais.

Notons que, d'après nos essais, le fait de diviser une tâche dans le prompt ne rend pas forcément le processus plus rapide. Par contre, le fait de mentionner des termes similaires à ceux de l'arborescence du site sur lequel on effectue une recherche peut aider les agents. Dans notre cas, on peut changer le prompt en : "trouve une raquette de tennis adulte Pure Drive non cordée à moins de 250 euros."

Autre prompt pour montrer la puissance de l'outil : "sur le site x.com, like avec mon compte @bruno_poncet le dernier post du compte JDNebusiness." L'action est bien réalisée, en moins de deux minutes. Tout n'est pourtant pas parfait. Planner explique d'un côté, avec raison, que "le dernier article de JDNebusiness a été liké par le compte @bruno_poncet sur x.com. La tâche ultime est accomplie. "Le Validator de son côté affirme que " la réponse n'est pas encore correcte. La tâche n'est pas terminée"...

Confidentialité et sécurité à surveiller

On le voit, ce genre d'outil en plein développement montre certaines lacunes. Outre le délai de latence, ou l'inexactitude parfois, attention à la confidentialité des données notamment. Gare aux données mentionnées et à la sûreté des sites visités.

Un récent rapport sur Nanobrowser alerte sur le fait que, si les actions se passent en local, le fait d'envoyer des informations potentiellement sensibles à des fournisseurs tiers pose question. Les données de l'utilisateur dépendent alors des politiques d'entreprises externes comme Google ou OpenAI.

Toujours d'après le rapport, la fiabilité et l'opérationnalité présentent des risques élevés. "Le projet ne dispose pas d'une entité juridique formelle, d'un financement officiel ou d'une stratégie de monétisation claire, ce qui soulève des questions importantes quant à sa viabilité, sa maintenance et son soutien à long terme."