Journal du Net > Publicité > "Référencement 2.0" - les bonnes feuilles
Sommaire

Comment fonctionne un moteur de recherche ?

Suivant 
Avant d'y référencer votre site, savez-vous ce que l'outil de recherche que vous utilisez au quotidien a “dans le ventre” ? Pas si simple, car si des moteurs comme Google, Yahoo! ou MSN Search semblent simplissimes à l'utilisation, sous leur capot sommeille souvent un tigre redoutable. Nous vous proposons dans ce chapitre une analyse globale du fonctionnement des moteurs et des processus qui sont mis en oeuvre pour traiter les documents, stocker les informations les concernant et restituer des résultats aux requêtes des utilisateurs. En effet, bien maîtriser le fonctionnement d'un moteur permet de bien mieux appréhender le référencement et l'optimisation de son site.

Un moteur de recherche est donc un ensemble de logiciels parcourant le Web puis indexant automatiquement les pages visitées. Trois étapes sont indispensables à son fonctionnement :
- La collecte d'information (ou crawl) grâce à des robots (ou spiders ou crawlers).
- L'indexation des données collectées et la constitution d'une base de données de documents nommée “index”.
- Le traitement des requêtes, avec en particulier un système d'interrogation de l'index et de classement des résultats en fonction de critères de pertinence suite à la saisie de mots clés par l'utilisateur de l'outil.

Deux principaux types de contenus sont actuellement affichés par les moteurs dans leurs pages de résultats, comme nous l'avons vu dans les pages précédentes : - les liens “organiques” ou “naturels”, obtenus grâce au “crawl” du Web. - les liens sponsorisés.

Nous allons nous concentrer ici en priorité sur les techniques utilisées par les moteurs pour indexer et retrouver des liens “naturels” et nous n'aborderons pas le traitement spécifique des liens sponsorisés (liens commerciaux, traités au chapitre 7 de cet ouvrage).

Technologies utilisées par les principaux portails de recherche

En dehors des trois leaders du marché (Google, Yahoo et MSN), de nombreux moteurs n'utilisent pas leurs propres technologies de recherche mais ils sous-traitent cette partie auprès de grands moteurs. En fait il n'existe que peu de “fournisseurs de technologie” sur le marché : Google, Yahoo!, MSN, Teoma, Wisenut et Gigablast aux Etats-Unis, comme sur le plan mondial, sont les principaux. Exalead, Mirago et Voila sont les acteurs majeurs en France, à côté d'autres moins connus comme Antidot, Deepindex, Seekport, Misterbot ou Dir.com (mais il en existe d'autres). Voici un tableau récapitulatif des technologies utilisées par les différents portails de recherche en 2006 :

Technologies de recherche actuellement utilisées par les principaux portails francophones de recherche en 2006

© Olivier Andrieu. Référencement 2.0. Abondance.com, 2006.
Sommaire   Suivant
Sommaire Publicité
|
Haut de page