"Comment puis-je éviter de retrouver des spammeurs dans les referers de mon site, et plus largement empêcher certain robots trop gourmands d'épuiser ma bande passante ?"
(30/05/2005)
Sur le long terme, il est simplement impossible de prendre en
compte toutes les possibilités licencieuses d'accès à votre
site/serveur. Tout au plus pouvez-vous bloquer ceux qui viennent
régulièrement sur votre site, mais cela n'empêchera pas d'autres
de le découvrir -ce qui implique de constantes et fastidieuses
mises à jour.
Le fichier
.htaccess vous permet d'identifier
de plusieurs manières les scripts qui se comportent mal : SetEnvIfNoCase Via 123.123.123.123
spammer=yes
...repère les proxy d'où vient le méchant bot.
SetEnvIfNoCase User-Agent "NomDuBot"
spammer=yes
...est plus précis, en cela que vous lui indiquez le UserAgent
du bot. Mal utilisé, il peut aller jusqu'à empêcher certains
navigateurs de voir votre site...
SetEnvIfNoCase Referer adressedumechant.com
spammer=yes
...bloque simplement l'URL de provenance du bot. C'est la plus
simple à mettre à jour... et la plus fastidieuse également,
sans doute.
Il est également possible d'utilser une expression régulière
: SetEnvIfNoCase Referer ".*(credit|texas-hold-em|holdem|poker|viagra).*"
spammer=yes
Pour appliquer ces filtres, il faut indiquer au serveur que
les artefacts nommés "spammer" doivent être rejetés : Order allow,deny
allow from all
deny from env=spammer