Pourquoi vous devriez filtrer les robots sur votre site web

La pratique du bot management se développe. Et pour cause, elle permet de réaliser des économies. Priceminister et Le Parisien se sont lancés.

Il n'y a pas que des internautes qui surfent sur le web. De nombreux robots le parcourent : on les appelle les "bots" ou les "crawlers". Le plus connu d'entre eux est celui de Google. Il "crawle" les pages pour les indexer et les faire apparaître dans ses résultats de recherche. Mais il y en a des moins connus... et surtout des moins bienveillants. "Il y a des bons bots, et des mauvais bots", confirme Fabien Grenier, DG et cofondateur de Datadome, une entreprise spécialisée dans la gestion des bots créée il y a deux ans. Preuve que ce marché intéresse, Akamaï propose aussi depuis quelques mois aux clients de son CDN un "bot manager".

Des bots qui plombent la webperf

Plusieurs raisons peuvent pousser un site à vouloir bloquer ou gérer ces bots. La première, c'est la "webperf", c'est-à-dire la rapidité et la performance technique des sites. Ces robots sont très nombreux et en multipliant les demandes de ressources aux serveurs, ils peuvent plomber sérieusement cette webperformance. "Les bots peuvent représenter jusqu'à 40% du trafic d'un site", estime Xavier Daspre, senior enterprise security architect EMEA chez Akamai. Les crawlers ne se voient pas toujours dans les statistiques web remontées par un outil comme Google Analytics, car ces bots n'exécutent pas toujours le Javascript, mais ils consomment beaucoup de bande passante et de ressources serveurs.

Chez Priceminister, Datadome permet de surveiller les demandes de ressource, c'est-à-dire les hits, par les "bad bots". © DR

Bloquer des bots permet donc de baisser la charge qui pèse sur ces serveurs et de réaliser des économies en dimensionnant mieux l'infrastructure informatique. Bloquer les bots permet aussi d'éviter certaines dégradations, car "ces crawlers peuvent faire planter nos API, et donc rendre inaccessibles des services", ajoute Caroline de La Vèze, chargée du développement et de la diffusion de contenus digitaux au Parisien, qui a commencé à utiliser la solution de Datadome.

Des bots qui posent de gros problèmes de sécurité

Des robots peuvent aussi être envoyés sur le web munis d'identifiants volés, souvent récoltés lors de gigantesques piratages, comme il en est arrivé à Sony ou à LinkedIn. Ces robots de hackers tentent de pirater des comptes qui peuvent contenir des informations sensibles, voire être reliés à des numéros de carte bleues. Pour ces robots-là, pas de pitié : il faut bloquer. "Ce n'est pas toujours facile car certains bots sont malins", explique Patrick Pereira, responsable exploitation de Priceminister, lui aussi client de Datadome. "Nous avions développé un outil qui nous permettait de bloquer les robots, mais mettre à jour la liste prenait trop de temps", raconte le responsable d'exploitation du site marchand. "Confier cette tâche à un spécialiste nous a fait gagner de l'efficacité et du temps", poursuit-il.

Quand la gestion des bots se monétise

L'accès au contenu peut être négocié

Les e-commerçants ont aussi une autre raison évidente de vouloir bloquer des bots. Ces derniers viennent sur leurs sites pour observer leurs prix et leurs stocks. Disposer de telles informations peut aider la concurrence à mieux se positionner. "Les robots viennent nous voler des descriptifs de produits, des images, et même des commentaires d'utilisateur", a-t-on pu observer chez Priceminister.

Derrière ces bots qui espionnent ou qui pillent, il y a souvent des origines inconnues, avec des serveurs dans le cloud d'Amazon, des IP changeantes... Parfois, des acteurs (très) connus du Web utilisent aussi ces méthodes. Certaines marques ou agences peuvent être intéressées par les informations ramenées par les bots pour faire une revue de presse ou observer leur e-réputation. Des acteurs de la publicité peuvent de leurs côtés vouloir étudier en détail les publicités qui s'affichent sur les pages web. "Ce ne sont pas toujours des voleurs et il est parfois possible de négocier avec eux l'accès aux contenus qui les intéressent", explique Fabien Grenier.

La technologie proposée par Datadome a prévu ce cas de figure : elle permet d'autoriser des robots (par exemple ceux de Google), d'en bloquer d'autres (par exemple ceux qui tentent de pirater le site), mais aussi d'en canaliser certains vers une adresse mail. Cette dernière possibilité vise à entamer la négociation de l'accès au contenu. Une nouvelle source de revenus apparaît alors, pour des e-commerçants, des médias ou pour n'importe quel site de contenu. "Lorsque l'entreprise qui lance les robots est connue, nous négocions. Gérer les bots est devenu une source de revenu complémentaire", explique Patrick Pereira.

"On a mis du temps à réaliser toute la valeur de notre contenu", analyse du côté du Parisien Caroline de La Vèze. "Des entreprises comme Argus ou Kantar, qui payent une redevance pour réaliser leurs revues de presse, ont attiré notre attention sur les crawlers qui font le même travail mais sans payer les éditeurs. Cela pourrait faire baisser les revenus que nous tirons de cette redevance." Le quotidien vient de terminer l'installation de la technologie et doit commencer à bloquer ses premiers bots dans les prochains jours. D'autres médias à la recherche de nouvelles sources de revenus pourraient s'intéresse de près au retour d'expérience du Parisien...