Untitled Document
Les bonnes pratiques selon Google

En savoir plus

 

Dans son livre blanc, Google consacre un chapitre complet au fichier d'exclusion des robots. Placé à la racine du site, ce fichier texte est pris en compte par la majorité des moteurs de recherche. Il indique aux moteurs les éléments devant être exclus du crawl.

Exemple de fichier d'exclusion des robots donné par Google, si un webmaster souhaite empêcher l'indexation de ses logs internes :
User-Agent: Googlebot - cette mention précise que la section qui suit contient toutes les instructions destinées au robot de Google.
Disallow: /logs/ - En précisant "Disallow" (non admis en français), on interdit au robot de Google l'accès aux fichiers.

Alternative au robots.txt : les méta-tags. Exemple d'un webmaster souhaitant exclure des nouveaux articles, accessibles uniquement pour les abonnés du site.
description brève de l'image
La mention 'noindex' dans le meta-tag stoppe les robots qui n'iront pas copier les informations dans son index.

Pour ne pas avoir de page en cache conservée par le moteur, il suffit de la même manière de le préciser dans les méta-tags la mention 'noarchive'

"En général, le fichier robots.txt est une bonne solution pour fournir une échelle de contrôle sur le site, alors que les méta-tags permettent un contrôle plus affiné sur les fichiers individuels ", explique Google dans son livre blanc.

 

 
Tableau récapitulatif des robots de Google
 
  Googlebot indexe les pages Web pour son moteur classique et actualité  
  Googlebot-Mobile indexe les pages Web pour son moteur mobile  
  Googlebot-Image indexe les pages Web pour son moteur images  
  Mediapartners-Google indexe les pages Web pour déterminer le contenu AdSense (pour les sites affiliés AdSense)  
  Adsbot-Google contrôle la qualité des pages d'atterrissage (Landing page) proposées par les annonceurs d'AdWords  
 
Source : "Making the Most of Your Content", Google