|
|
|
|
|
Sommaire Moteur-Référencement |
|
Se préserver des moteurs de recherche indiscrets |
La mission des moteurs : accumuler le maximum d'informations disponibles sur le Web. Internautes et responsables de sites doivent savoir utiliser ces outils tout en protégeant certaines de leurs données.
(26/01/2007) |
|
Le but de tout moteur de recherche est de regrouper un maximum de contenu pour le présenter par la suite à l'internaute de façon organisée et hiérarchisée. Cette récolte massive de données permet aux moteurs de détenir nombre d'informations capitales.
Cette cueillette de données implique - pour les internautes comme les responsables de sites Web - de se protéger. L'accès illimité à l'information peut en effet avoir des conséquences importantes, comme la divulgation de données personnelles et/ou sensibles, auxquelles le moteur peut avoir accès naturellement, de par son activité de scrolling.
Le rôle des robots d'indexation des moteurs est de récupérer chaque contenu de pages, en passant de liens en liens.
Pour empêcher l'indexation de certaines pages par les moteurs, la manipulation est simple. Il faut préciser directement dans son code source les pages que le robot pourra visiter ou non.
C'est le fichier robots.txt qui remplit ce rôle. Ce fichier texte se trouve à la racine du site, et contient les instructions "allow" ou "disallow" (lire Fermer l'accès aux moteurs de recherche, 03/02/2006).
Si le mal est déjà fait et que les pages sont accessibles à partir des résultats de Google, l'affaire n'est pas pour autant complètement perdue. Il est toujours possible de supprimer certaines pages de l'index du moteur. Pour ce faire, il suffit d'insérer la balise "meta name="robots" content="noindex, nofollow" dans le code HTML des pages concernées.
Les utilisateurs sont également concernés par cette chasse à l'information |
Après avoir mis à jour ces informations, et afin d'accélérer la prise en compte des ces changements par le robot, il est nécessaire de contacter directement le moteur concerné via un formulaire dédié.
Dans cette même balise, il est également possible d'éviter l'archivage automatique de son site, ce qui rendra les informations non-accessibles en cache, alors qu'elles ne figurent plus sur la version actuelle du site. La balise "meta name="robots" content="norachive" remplira cette fonction.
Les utilisateurs sont également concernés par cette chasse à l'information, Google multipliant par exemple les sources de données. Les boîtes aux lettres Gmail sont ainsi régulièrement parcourues par des robots, même si les informations analysées par Google servent uniquement à l'adaptation de la publicité aux contenus échangés.
L'outil Google Desktop avait également été montré du doigt pour atteinte à la vie privée début 2006 (lire la brève Google Desktop Search 3 pointé du doigt par les défenseurs de la vie privée sur Internet du 13/02/2006). Enfin, la barre d'outil du moteur n'est pas en reste (lire la brève Google dévoile des données privées via sa toolbar du 23/01/2007).
Là aussi, c'est à l'internaute de limiter les informations envoyées sur les serveurs de Google en contrôlant et effaçant régulièrement les cookies.
|
|
|
|
|
|
|
|