Robots d'indexation : des outils à apprivoiser

Solutions

BOURSE

Services

Benchmark Group

L'internaute Magazine

MOTEUR–REFERENCEMENT

Sommaire Moteur-Référencement

Robots d'indexation : des outils à apprivoiser

Explication, point par point, du fonctionnement de ces programmes informatiques situés au coeur des moteurs de recherche et qui obéissent à des règles strictes et précises. (19/05/2006)

En savoir plus

Visiplus

Séminaire Benchmark

Optimiser son site pour le référencement

Robot, "spider", "crawler" ou encore "araignée", autant de termes pour désigner, dans le monde des moteurs de recherche, un seul et même outil. Et bien comprendre le fonctionnement de ce genre d'outil permet de mieux comprendre celui, par exemple, de Google, Yahoo, MSN Search et autres Ask.

Elément essentiel, le robot est une sorte d'interface entre le moteur de recherche et les sites Web qui, à un moment donné, peuvent rentrer dans sa base. Pour qu'un site soit visible par les internautes, suite à une requête effectuée dans le moteur de recherche, ce dernier doit avant toute chose en connaître l'existence et le contenu. C'est le robot qui joue ce rôle d'informateur.

1) De lien en lien
Le spider est une composante clé d'un moteur de recherche. "Il est la base du moteur. Ce logiciel scrute le Web, de liens en liens, pour indexer le maximum de pages", explique Régis Micheli, directeur de Visiplus, agence de référencement professionnel. Concrètement, il alimente ses index par les données récoltées. Ces données peuvent être des pages Web, des images, des vidéos, des documents Word, PDF, etc.

Les crawlers marchent par lien, ce qui signifie que chaque lien amenant sur un site est une porte ouverte non seulement pour l'internaute, mais également pour les robots.

Le travail est titanesque pour ces programmes informatiques qui sondent tout le Web. Ils collectent minutieusement les informations de chaque page pour les intégrer dans une base commune : l'index du moteur. "Pour quantifier les choses, l'index de Google compte par exemple 8 milliards de pages", précise le dirigeant de l'agence. "Il y a deux ans, les robots enregistraient leurs données sur plus de 10 000 ordinateurs", ajoute-t-il.

Une fois l'envoi des informations collectées au moteur d'indexation, son rôle s'arrête là. La fonction de tri ne lui appartient pas.

2) Un fonctionnement en constante évolution
Les robots sont pour la majorité le fruit de la recherche et du développement de chaque moteur. Parmi les plus connus, on peut citer Googlebot de Google, MSNBot de MSN, Slurp de Yahoo.

Certaines techniques peuvent être mal assimilés par le robot indexeur

"Chaque robot a un fonctionnement différent. Par exemple, au niveau de la fréquence : GoogleBot se rend tous les jours sur les sites ayant un fort pagerank (lire l'article du 27/01/2006). D'autres, comme celui du moteur Altavista, passent beaucoup moins souvent", note Régis Micheli.

Pour la plupart d'entre eux, leur venue s'adapte en fonction de la mise à jour des données. Les spiders reviennent périodiquement visiter les pages pour indexer les éventuelles modifications.

3) Des êtres capricieux qu'il faut apprivoiser...
Afin d'être pris en compte par un robot, le site doit être le plus accessible possible, tant en termes de disponibilité (site sur lequel on peut aller sans problème) que de conformité à un certain nombre de règles d'ergonomie et d'usabilité (lire l'article du 28/04/2006). Les pages disposant de liens en JavaScript, de document en Flash ou, plus récemment, au format Ajax, peuvent être mal assimilées par le robot indexeur.

Il est également possible de le faire venir plus souvent. En effet, les visites des moteurs dépendent de la fréquence de la mise à jour du site. Les crawlers viendront ainsi plus fréquemment sur les sites dont le taux de renouvellement des contenus est élevé, comme les sites d'actualité.

"Avant, les professionnels du référencement soumettaient les URL des pages pour "appeler" le moteur. Aujourd'hui, cela ne se fait plus vraiment puisque la plupart des moteurs viennent par eux-mêmes", indique le référenceur.

"Il est cependant possible de prévenir le moteur de la disparition des pages qui n'existent plus", ajoute le spécialiste. Il est donc possible de forcer un rafraîchissement par le biais d'un formulaire Remove proposé par le moteur.

4) ... mais dont il faut aussi se méfier !
Toutes les pages d'un site ne doivent cependant pas être mises à disposition des robots, donc des internautes par la suite. Les pages de données confidentielles ou encore les pages en construction doivent être protégées.

Il existe plusieurs manières pour bloquer les robots. "Il est plus facile d'interdire à un robot de venir sur son site que de lui recommander de le faire", plaisante Régis Micheli. La technique "robot.txt" est la plus utilisée, en raison de sa simplicité et de sa précision. En effet, il est possible d'interdire l'accès au niveau du site entier, ou seulement au niveau de dossiers spécifiques ou bien encore bloquer l'accès à certains robots.

L'indexation est complètement différente du positionnement

Pour ce faire, il suffit de placer un fichier texte, appelé "robots.txt", sur le serveur. "Il s'agit d'un protocole d'exclusion mis à la racine du serveur Web", indique M. Micheli. Pour interdire l'accès à un dossier, il suffit d'indiquer la fonction Disallow suivi du nom du fichier ou du robot interdit (lire l'article du 03/02/2006).

5) Des visites suivies à la trace
Comme tout visiteur, les robots laissent une trace de leur passage. Leurs allées et venues peuvent être analysées par le biais de fichiers de journalisation - autrement dit, les fichiers logs. Ces fichiers indiquent l'historique des connexions. "En prenant l'exemple de Yahoo, il est possible de connaître le passage des différents robots pour la rubrique shopping, pour celle des flux RSS ou encore celle du contenu multimédia", détaille l'agence Visiplus.

Bien souvent, les outils de statistiques font automatiquement le tri et une rubrique spéciale est dédiée aux robots. Ces données servent uniquement à savoir si le site a des chances de bien être indexé dans les moteurs de recherche.

6) Indexation et positionnement : une différence de taille
Grâce aux fichiers logs, il est donc possible de savoir si un site est connu des moteurs. "Attention, quand un robot est passé sur une page, cela signifie qu'elle est indexée, mais pas forcément qu'elle est visible tout de suite, et encore moins qu'elle sera bien positionnée", prévient Régis Micheli.

En bref sur le sujet

Microsoft et Google se chamaillent sur la pertinence de leurs moteurs (16/11/2010)
Service-public.fr / Antidot : un moteur de recherche pour simplifier l'accès à l'information (25/10/2010)
Référencement : Bing met l'accent sur Facebook (14/10/2010)
Lucene, nouveau moteur Open Source de Twitter (11/10/2010)
Yahoo.com modifie ses pages de résultats de recherche (08/10/2010)

L'indexation est complètement différente du positionnement et la visite d'un robot ne signifie pas que le site se situera obligatoirement dans les "x" premières pages d'un moteur. De plus, le nombre d'information stockées par les robots est immense. Le moteur stocke donc l'information au fur et à mesure et la retransmet en ligne de la même manière.

Ainsi, les robots sont la base même du moteur. Pour autant, il est impossible de mettre en place des techniques pour les amadouer. "Savoir comment fonctionne le robot est instructif et ludique. Mais cela ne permet pas d'améliorer son référencement", souligne Régis Micheli. Le travail de référencement doit même se faire au préalable, avant la première visite d'un robot, et ensuite au quotidien.

Emmeline RATIER, JDN Solutions

Sommaire Moteur-Référencement

Accueil | Haut de page

Nouvelles offres d'emploi sur Emploi Center

Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY