Ne pas être référencé : les méthodes qui marchent

Pour repousser les robots des moteurs loin de ses pages, les solutions sont nombreuses : robots.txt, gestion des accès serveur, utilisation des balises, mise en place de Javascript. A chaque besoin sa méthode.

Ne pas référencer son site : une décision qui consiste à fermer la devanture de son magasin pour ne laisser que la porte de service ouverte. Seuls les clients déjà venus en connaissent l'entrée. Il reste difficile de prendre une telle décision. Il arrive cependant qu'un détenteur de site décide de bloquer l'accès de certaines pages aux moteurs de recherche.

Plusieurs raisons peuvent expliquer cette décision : des pages en construction ou la mise en ligne d'un contenu dupliqué. Pour ne pas référencer son contenu, les moteurs communiquent sur deux techniques. Officielles et reconnues, elles sont largement utilisées par les professionnels.

Tout d'abord le fichier robots.txt. Ce fichier texte contient les commandes à destination des robots d'indexation des moteurs, déterminant quelles pages peuvent être indexées ou non. Ainsi, lorsqu'un robot arrive sur un site, il cherche dans un premier temps ce fichier.

Exemple de fichiers robots.txt :

User-Agent: *
Disallow:

Il est possible de s'adresser à un ou plusieurs robots, en mentionnant le nom de ce dernier : au choix : Googlebot, MSN Bot, Yahoo, Fast, Voila, Deepindex ou encore Teoma.

Deuxième solution : l'utilisation des balises meta robots. Insérées dans le code source de la page, des commandes permettent d'interdire aux robots d'indexer une page :

Exemple de balise "noindex" :
<meta name="robots" content="noindex">
Il est également possible d'interdire aux robots de suivre les liens d'une page :
<meta name="robots" content="nofollow">

Parmi les valeurs les plus utilisées : "all", donnant l'accès entier aux robots; "noindex", interdisant l'indexation; "nofollow", qui ne fait pas suivre les liens ; et "noarchive", empêchant l'archivage de ces pages par les moteurs.

Tous les moteurs ne traitent pas de la même façon ces données. Certains acteurs respectent ces informations, comme Google et Ask, et d'autres les ignorent tandis qu'une poignée choisissent une solution alternative, dont Yahoo et Live Search qui présentent la page dans les résultats, mais sans donner de résumé dans le moteur. Le 28 février 2008, le responsable de l'équipe anti-spam du moteur Google, Matt Cutts s'est même interrogé sur la manière dont le moteur devait prendre en compte la balise "noindex". Discussions encore en cours mais qui montrent les limites de ces deux premières solutions.

"Il est difficile de se contenter de fermer une porte pour empêcher quelqu'un d'entrer", souligne Luc Jovart, dirigeant de Ucatchit Référencement, "il existe 1001 erreurs à ne pas commettre pour se faire référencer. Pour ne pas apparaître sur les moteurs, il convient dans ce cas d'enclencher le processus inverse", ajoute ce dernier. Utiliser les javascript ou le flash est dans ce cas fortement conseillé.

Autre possibilité : la gestion des accès serveur, sur le fichier .htaccess. Il suffit dans ce cas de trouver dans les logs du serveur le nom, l'IP ou le referer des robots, et le placer dans le fichier .htaccess, à la racine du serveur.

Enfin, afin de s'assurer si le robot est passé ou non, l'outil de statistiques fournit les détails avec le nom des robots et ses visites sue les pages.  

Serveurs / Indexation