|
Avant d'y référencer votre site, savez-vous ce que l'outil de recherche que vous utilisez
au quotidien a dans le ventre ? Pas si simple, car si des moteurs comme
Google, Yahoo! ou MSN Search semblent simplissimes à l'utilisation, sous leur
capot sommeille souvent un tigre redoutable. Nous vous proposons dans ce chapitre
une analyse globale du fonctionnement des moteurs et des processus qui sont
mis en oeuvre pour traiter les documents, stocker les informations les concernant et
restituer des résultats aux requêtes des utilisateurs. En effet, bien maîtriser le fonctionnement
d'un moteur permet de bien mieux appréhender le référencement et l'optimisation
de son site.
Un moteur de recherche est donc un ensemble de logiciels parcourant le Web puis
indexant automatiquement les pages visitées. Trois étapes sont indispensables à
son fonctionnement :
- La collecte d'information (ou crawl) grâce à des robots (ou spiders ou crawlers).
- L'indexation des données collectées et la constitution d'une base de données de
documents nommée index.
- Le traitement des requêtes, avec en particulier un système d'interrogation de l'index
et de classement des résultats en fonction de critères de pertinence suite à la
saisie de mots clés par l'utilisateur de l'outil.
Deux principaux types de contenus sont actuellement affichés par les moteurs dans
leurs pages de résultats, comme nous l'avons vu dans les pages précédentes :
- les liens organiques ou naturels, obtenus grâce au crawl du Web.
- les liens sponsorisés.
Nous allons nous concentrer ici en priorité sur les techniques utilisées par les
moteurs pour indexer et retrouver des liens naturels et nous n'aborderons pas le
traitement spécifique des liens sponsorisés (liens commerciaux, traités au chapitre
7 de cet ouvrage).
Technologies utilisées par les principaux portails de recherche
En dehors des trois leaders du marché (Google, Yahoo et MSN), de nombreux
moteurs n'utilisent pas leurs propres technologies de recherche mais ils sous-traitent
cette partie auprès de grands moteurs. En fait il n'existe que peu de fournisseurs
de technologie sur le marché : Google, Yahoo!, MSN, Teoma, Wisenut et
Gigablast aux Etats-Unis, comme sur le plan mondial, sont les principaux. Exalead,
Mirago et Voila sont les acteurs majeurs en France, à côté d'autres moins connus
comme Antidot, Deepindex, Seekport, Misterbot ou Dir.com (mais il en existe d'autres).
Voici un tableau récapitulatif des technologies utilisées par les différents portails
de recherche en 2006 :
|
Technologies de recherche actuellement utilisées par les principaux
portails francophones de recherche en 2006
|
|
© Olivier Andrieu. Référencement 2.0. Abondance.com, 2006.
|