Robots.txt : les référenceurs divisés sur la disparition du noindex

Pour uniformiser le protocole d'interprétation du fichier robots.txt Google annonce la fin de l'interprétation de certains éléments, dont le noindex.

Le 2 juillet 2019, sur le Webmaster Central Blog, Google a annoncé que d'ici le 1^er septembre, ses robots cesseront de prendre en compte noindex, crawl-delay et nofollow. Officiellement, il ne les avait d'ailleurs jamais supportés. En pratique, cependant, il lisait et appliquait les directives du noindex. Google engage les référenceurs à se reporter sur d'autres solutions pour lui indiquer si une page n'est pas destinée à figurer dans son index. Vincent Courson, search outreach specialist chez Google, rappelle que Google a toujours incité les référenceurs à ne pas utiliser le noindex, puisque "le robots.txt n'est pas fait pour gérer l'indexation mais pour le crawl".

Alors, cette annonce de Google doit-elle inciter les équipes techniques à revoir le code de leurs pages ? Las, les référenceurs que nous avons interrogés sont divisés sur la question. Voici ce qu'ils nous ont répondu :

Ça ne va pas changer grand-chose

Fabien Raquidel, fondateur de Vip Agence SEO : "C'était juste un "hack" le noindex dans le robots.txt, Google ne l'a jamais reconnu. Ce n'est pas une mauvaise nouvelle, mais ça permettait de s'en sortir facilement sur des dossiers clients délicat".

Yann Lemort, consultant et formateur SEO : "Cela ne va rien changer pour moi, je ne préconisais déjà pas le noindex avant. Rester en disallow, c'est très bien si c'est bien fait".

Cela devait arriver

Madeline Pinthon, consultante SEO chez iProspect : "C'est une nouvelle neutre. En théorie, le noindex n'était pas suivi par Google. Mais en pratique, cela fonctionnait (la preuve, ils annoncent officiellement qu'ils ne le prendront plus en compte le 1er septembre). Cela faisait partie des éléments qu'on ne recommandait que lorsqu'on ne pouvait pas faire autrement. C'était une rustine bien pratique. Mais une rustine n'est pas une solution viable à long terme.

Olivier Duffez, fondateur de Webrankinfo : "Le noindex était pris en compte mais pas officiel. C'était bien de pouvoir mettre en noindex plein d'URLs correspondant à un motif (avec des sortes de regex dans la directive noindex du fichier robots.txt). Les 404 ou 410, solutions proposées par Google, peuvent mettre des semaines ou des mois à se désindexer. Ce sera plus compliqué pour faire désindexer certaines URLs au sein d'un même répertoire, quand il y en a beaucoup à désindexer, mais ce cas de figure est rare".

Une mauvaise nouvelle

Raphaël Doucet, consultant SEO : "C'était rudement pratique lorsqu'il n'y avait pas d'autres solutions. J'ai eu un cas il y a peu où c'était ma seule solution (sauf à attendre 10 mois) pour désindexer 40 000 pages. C'est une mauvaise nouvelle si ça ne fonctionne effectivement plus. Mais avec tous les bugs récents chez Google, qui sait, … "

Audrey Schoonwater, responsable SEO pour le Comptoir des Voyages : "C'est une mauvaise nouvelle pour ceux qui ne gèrent leur budget de crawl qu'avec le noindex du robots.txt. C'est-à-dire les référenceurs de beaucoup de gros sites qui ont peu de moyens a leur disposition pour gérer la non indexation".

Julien Ringard, fondateur de l'agence Digimood : "D'un côté c'est une bonne nouvelle car il faudra faire des efforts côté développement pour avoir un site propre. De l'autre côté, c'en est une mauvaise car il faudra déployer des ressource de développement supplémentaires et être capable d'appliquer certaines recommandations importantes pour éviter les erreurs d'indexation avec des pages de mauvaise qualité".