Robots.txt : définition et fonctionnement

Les référenceurs connaissent bien ce fichier, car bien utilisé, il aide à optimiser le budget de crawl en dirigeant les robots vers les pages les plus importantes d'un site Internet.

Qu'est-ce que le fichier Robots.txt ?

En informatique, le fichier robots.txt, contient des commandes destinées aux robots de crawl des moteurs de recherche. Il participe en ce sens au référencement naturel d'un site web. Le nom de ce fichier comporte bien "robots" au pluriel et non au singulier ("robot.txt") comme on le voit souvent. Il sert à délivrer des autorisations de crawl aux robots, principalement pour alléger le nombre de demandes sur le site. Il ne garantit pas que les documents ciblés soient invisibles dans les résultats de recherche.

Ce fichier se trouve sur une URL particulière du site Internet auquel il est rattaché. Par exemple, https://www.ceciestunsite.com/robots.txt. Il n'est pas obligatoire de disposer d'un tel fichier, mais lorsque c'est le le cas, il est la première étape du crawl d'un site Internet par les robots des moteurs de recherche, comme Google, Bing, Yandex, etc.

Comment fonctionne le fichier Robots.txt ?

Tous les robots ne respectent pas à la lettre les instructions données par le Robots.txt. Il ne s'agit donc pas d'un outil assurant la sécurité du site. Ce document s'adresse aux robots des moteurs de recherche pour leur indiquer quelles URLs et quels fichiers multimédia et fichiers de ressources sont destinés au crawl. Il peut aussi indiquer où se trouvent les sitemap du site.

Dans un premier temps, les crawlers téléchargent le fichier Robots.txt afin d'analyser ses instructions et de connaître, avant exploration, les règles d'autorisation définies au sein du site Internet. Ensuite, si le fichier les y autorise, ils téléchargent l'URL à la racine du site, c'est-à-dire https://www.ceciestunsite.com/. C'est à partir de la lecture du contenu de cette page qu'ils commencent à cartographier les liens internes leur permettant de visiter le site, en appliquant les règles préalablement découvertes dans le fichier Robots.txt. Par exemple, il est inutile de laisser Google crawler une interface d'administration ou les URLs des facettes sur un site e-commerce. Ce fichier peut même aller jusqu'à empêcher l'indexation d'un site web par les moteurs de recherche.

Quelles instructions utiliser dans le fichier Robots.txt ?

La création d'un fichier Robots.txt n'est obligatoire que lorsqu'on souhaite contrôler le crawl de son site web par les moteurs de recherche. Pour être compris par les spiders, il faut que le fichier comporte trois types d'informations :

Qui : il faut dire à quels user-agent les règles s'adressent. Celui de Google : googlebot ? De Bing : bingbot ? Tous les robots, indiqués par une étoile : * ?
Quoi : Allow ou Disallow, autoriser ou ne pas autoriser l'exploration lors du crawl du site.
A qui ? Expressions régulières des URLs, pour faire comprendre aux robots quelles sont les URLs concernées par les règles définies plus haut. Tous les robots ne sont pas également capables de comprendre des expressions régulières complexes. Il est recommandé de s'en tenir à des formules simples.

Pour éviter le risque d'erreurs

dans la syntaxe des instructions, il est recommandé de se reporter aux indications données par Google dans son guide aux webmasters.

Peut-on utiliser le fichier Robots.txt pour bloquer l'indexation d'une page ?

Google et Bing n'ont jamais cautionné l'utilisation de l'instruction "noindex" dans le fichier Robots.txt. En juillet 2019, Google a annoncé qu'à compter du 1er septembre il ne la prendra plus en compte. Une part marginale des référenceurs utilisaient de temps en temps cette instruction pour désindexer rapidement de grandes quantités de pages. Désormais, seules les commandes relatives au crawl seront suivies par les robots du moteur de recherche. Il est donc inutile d'utiliser le "noindex" dans le fichier Robots.txt pour gérer l'indexation d'une URL ou d'un document, c'est-à-dire son apparition dans les SERPs. D'autres solutions existent.