Fin du noindex dans robots.txt : que valent les alternatives de Google ?

Fin du noindex dans robots.txt : que valent les alternatives de Google ? Google n'autorisera bientôt plus le recours au noindex dans le fichier destiné à gérer le crawl mais propose 5 solutions pour désindexer ses pages. Avec des avantages et des défauts.

Google a décidé de faire un peu de ménage dans l'utilisation des règles d'autorisation du fichier robots.txt, initialement destiné à gérer le crawl. Concrètement, des indications non-officielles que ses robots prenaient en compte jusqu'à maintenant seront ignorées à partir du 1er septembre. L'une d'entre elles préoccupe particulièrement les référenceurs : la disparition du noindex pour indiquer aux robots qu'une page ne doit pas être indexée. Une solution de dépannage que de nombreux référenceurs étaient bien contents d'avoir sous le coude en cas de besoin. Toutefois, Google propose cinq alternatives, plus ou moins intéressantes selon la situation.

1. L'instruction noindex sur les pages

Ajouter directement sur les pages concernées une mention demandant aux robots de ne pas indexer une URL est une bonne solution qui peut prendre deux formes :

Première forme : une balise meta robots directement insérée dans la partie <head> du code HTML de la page.

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Elle peut être gérée par le CMS lui-même, ou un plugin à l'intérieur du CMS. Cette solution a l'avantage d'être simple et pratique pour désindexer quelques pages. La mention "robots" s'adresse par défaut à tous les robots des moteurs de recherche. Sinon, il est possible de viser le user-agent d'un moteur de recherche en particulier, par exemple celui de Google :

<meta name="googlebot" content="noindex">

En revanche, s'il faut désindexer rapidement des centaines de milliers de pages, cette solution perd de son intérêt, car il n'est pas toujours possible de la rattacher à une typologie de pages spécifique.

Deuxième forme : dans l'en-tête HTTP qui accompagne le passage du serveur au navigateur de chaque document (page, pdf, Word etc) muni d'une URL, il est possible d'ajouter une directive baptisée : "X-Robots-Tag". Cela suppose d'avoir accès aux serveurs web Apache afin de l'intégrer aux fichiers .htaccess et httpd.conf. Cette solution est intéressante pour désindexer par exemple "les URLs avec des paramètres de tri, pour éviter la duplication de contenus", explique Aymeric Bouillat consultant pour l'agence SEOHackers."Imaginons des URLs catégories /femme/pantalons/jeans. Sur une page catégorie, il est possible de trier les produits par ordre de prix ou de façon alphanumérique, ce qui génère des URLs de type /femme/pantalons/jeans?order=price ou /femme/pantalons/jeans?order=alphanum. Il faut renvoyer un X-Robots-Tag : "noindex" à chaque fois que le paramètre order est trouvé dans l'URL avec comme valeur soit price, soit alphanum." Voici à quoi cela ressemble :

RewriteCond %{QUERY_STRING} order=(price|alphanum)
RewriteRule ^.*$ - [E=STOPINDEX]
Header set X-Robots-Tag "noindex" env=STOPINDEX

Les moteurs de recherche eux-mêmes recommandent d'utiliser ces instructions. Ils les respectent à la lettre si elles sont bien implémentées. Elles permettent de cibler les pages à désindexer avec souplesse.

Le principal hic est opérationnel. "Ce sont souvent d'autres équipes qui se chargent de les mettre en place, souligne Madeline Pinthon, consultante SEO Senior chez iProspect, c'est donc compliqué de faire passer ces mesures, surtout lorsqu'il n'y a plus de budget pour faire passer ces tickets".

Ces deux solutions sont découvertes par les robots de crawl au fil de leur exploration du site. La rapidité de prise en compte dépend donc de celle du crawl, qui varie beaucoup d'un site Internet à l'autre. Google rappelle dans sa documentation que si par ailleurs le crawl est bloqué dans le fichier robots.txt, ses robots n’accéderont pas aux pages, et donc aux instructions. Pour hâter le processus de désindexation, "une astuce consiste à mettre ces URLs dans un sitemap. Cela peut accélérer l'exploration en augmentant la fréquence temporaire de crawl", relève Herman Kiwa, responsable SEO chez Via Mobilis.  

2. Statut 404 et 410 http

Une façon détournée de faire comprendre aux moteurs de recherche qu'une page doit disparaître de leur index est de lui ajouter un code d'erreur HTTP 404 ou 410. Cette solution "radicale" est utile "pour tuer vraiment une page que l'on veut désactiver pour les robots comme pour les internautes", selon Sébastien Bulté, consultant SEO chez Resoneo. En effet, dans ce cas il ne faut pas que la page reste accessible à la navigation, car elle n'est pas vide, contrairement à une page d'erreur 404 classique. Or, si "Google arrive à voir si une page 200 (code de réponse normal) renvoie un contenu vide (soft 404), du coup il peut peut-être voir l'inverse : un 404 qui renvoie du contenu, une soft 200", pointe Madeline Pinthon. Et dans ce cas, il n'est pas certain qu'il décide de désindexer effectivement la page.

De plus, "il faut avoir nettoyé les liens internes et le sitemap XML de son site pour éviter que Google ne soit trop perturbé par l'apparition d'erreurs, notamment si cela concerne subitement beaucoup de pages", précise Sébastien Bulté.

3. Imposer un login/mot de passe pour accéder à la page

Pour qu'une page ne figure pas dans l'index des moteurs de recherche, il est aussi possible de leur en bloquer l'accès en demandant un mot de passe et un login. Sans le précieux sésame, ni robots ni internautes ne peuvent y accéder. "C'est efficace en phase de test, sur des pages en préprod, ou en back office, mais l'objectif est plutôt d'empêcher l'indexation en première instance, pas de désindexer une page", note Madeline Pinthon.

4. Utiliser la fonction disallow dans robots.txt

A l'origine, le fichier robots.txt sert exclusivement à gérer le crawl. L'indication disallow, tout à fait légitime et respectée par les moteurs de recherche, indique qu'une page ou un ensemble de pages n'est pas destiné à être crawlé. Et cette méthode a le mérite de la simplicité : "une ligne de code suffit", souligne Sébastien Bulté. Généralement, il recommande à ses clients de l'utiliser après une analyse de logs, pour traiter des URLs en masse et optimiser son budget de crawl. Par exemple, "sur un site e-commerce on peut l'utiliser pour empêcher les robots de s'engouffrer dans une chaîne de liens infinie, cumulant tous les filtres de produits", illustre le consultant SEO.

Pour sa part, Herman Kiwa rappelle que "ces URLs, si elles ont été précédemment indexées, restent dans l'index Google. Ce sont seulement les nouvelles URLs, auxquelles Google n'aura pas accès". Donc, si l'idée est de supprimer de l'index de Google des pages déjà crawlées, le disallow n'est pas la solution la plus efficace.

5. Utiliser l'outil de suppression d'URL dans la Search Console

L'ancienne Search Console permet encore de supprimer temporairement (pour 90 jours maximum) une URL des résultats de Google. Mais cette méthode "n'est pas réaliste dans un projet SEO, temporise Aurélien Bardon, fondateur de l'agence Aseox, car il faut soumettre les URLs une par une. Elle peut dépanner en cas d'urgence, s'il faut supprimer quelque chose très rapidement". Il faudra seulement se souvenir de statuer sur le sort de ces pages à temps, avant que le moteur de recherche ne les fasse réapparaître dans ses résultats.

Et aussi : 

Fin du noindex dans robots.txt : que valent les alternatives de Google ?
Fin du noindex dans robots.txt : que valent les alternatives de Google ?

Google a décidé de faire un peu de ménage dans l'utilisation des règles d'autorisation du fichier robots.txt, initialement destiné à gérer le crawl. Concrètement, des indications non-officielles que ses robots prenaient en compte jusqu'à...