|
Forum |
|
Réagissez
dans les forums
de JDN Développeurs
|
Dans le cas où l'on souhaite la fermeture de l'accès uniquement pour les moteurs de recherche, c'est-à-dire pour les "robots" qui parcourent les liens du Web pour renvoyer leurs trouvailles au central, une solution existe côté serveur.
Les concepteurs de ces robots ont prévu de respecter un fichier standard : robots.txt. Il s'agit d'un simple fichier texte dont le contenu répond à une syntaxe particulière et établie. Lorsqu'un robot arrive sur un nouveau domaine, il cherche d'abord à y trouver ce fichier. S'il le trouve, il obéit à son contenu, sinon, il estime qu'il n'y a aucune limitation.
robots.txt suit une syntaxe simple, composée de groupes de deux lignes : la première précise le nom du robot, la seconde la partie à laquelle il n'a pas accès :
User-Agent: *
Disallow: /
Fonctionne pour tous les robots, sur toutes les pages
User-Agent: *
Disallow: /dossier/
Fonctionne pour tous les robots, sur un dossier précis
User-Agent: googlebot
Disallow: /dossier/
Fonctionne pour le robot Google, sur un dossier précis
Notez que les robots les moins éthiques ne s'occupent pas de robots.txt. Ce fichier n'agit que pour les robots respectueux du standard.
Pour ces derniers, la solution repose, comme souvent quand il s'agit de gérer les accès serveur, sur le fichier .htaccess. Il faudra trouver dans les logs du serveur le nom, l'IP ou le referer du robot félon, et le placer dans le fichier .htaccess, à la racine du serveur.
Options +FollowSymlinks
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} VilainRobot
RewriteRule .* - [F,L]
RewriteCond %{REMOTE_ADDR} "^63.148.99.2(2[4-9]|[3-4][0-9]|5[0-5])$"
RewriteRule .* - [F,L]
RewriteCond %{HTTP_REFERER} vilain-site.org
RewriteRule .* - [F,L]
|