PRATIQUE OUTILS 
Fermer l'accès aux moteurs de recherche
 
"Je ne veux pas que mon site soit répertorié sur les moteurs de recherche. Comment m'y prendre ?" (03/02/2006)
  Forum

Réagissez dans les forums de JDN Développeurs

Dans le cas où l'on souhaite la fermeture de l'accès uniquement pour les moteurs de recherche, c'est-à-dire pour les "robots" qui parcourent les liens du Web pour renvoyer leurs trouvailles au central, une solution existe côté serveur.

Les concepteurs de ces robots ont prévu de respecter un fichier standard : robots.txt. Il s'agit d'un simple fichier texte dont le contenu répond à une syntaxe particulière et établie. Lorsqu'un robot arrive sur un nouveau domaine, il cherche d'abord à y trouver ce fichier. S'il le trouve, il obéit à son contenu, sinon, il estime qu'il n'y a aucune limitation.

robots.txt suit une syntaxe simple, composée de groupes de deux lignes : la première précise le nom du robot, la seconde la partie à laquelle il n'a pas accès :
User-Agent: *
Disallow: /

Fonctionne pour tous les robots, sur toutes les pages

User-Agent: *
Disallow: /dossier/

Fonctionne pour tous les robots, sur un dossier précis

User-Agent: googlebot
Disallow: /dossier/

Fonctionne pour le robot Google, sur un dossier précis

Notez que les robots les moins éthiques ne s'occupent pas de robots.txt. Ce fichier n'agit que pour les robots respectueux du standard.
Pour ces derniers, la solution repose, comme souvent quand il s'agit de gérer les accès serveur, sur le fichier .htaccess. Il faudra trouver dans les logs du serveur le nom, l'IP ou le referer du robot félon, et le placer dans le fichier .htaccess, à la racine du serveur.

Options +FollowSymlinks
RewriteEngine On
RewriteBase /

RewriteCond %{HTTP_USER_AGENT} VilainRobot
RewriteRule .* - [F,L]

RewriteCond %{REMOTE_ADDR} "^63.148.99.2(2[4-9]|[3-4][0-9]|5[0-5])$"
RewriteRule .* - [F,L]

RewriteCond %{HTTP_REFERER} vilain-site.org
RewriteRule .* - [F,L]

 
Xavier Borderie, JDN Développeurs
 
 
Accueil | Haut de page