|
|
|
|
Relation-Client |
Les
technologies des moteurs de recherche en 10 questions |
Index, moteurs sémantiques, syntaxiques, analyseurs... JDNet Solutions a consulté plusieurs experts pour vous éclairer sur les techniques des moteurs de recherche du marché. (Jeudi
14 février 2002) |
|
Dans le domaine des
moteurs de recherche, les discours des éditeurs
semblent souvent assez proches. Partant tous d'une logique
applicative de traitement statistique, la plupart d'entre
eux se sont équipés au fil des années
d'analyseurs sémantiques et grammaticaux
afin de prendre en compte le sens du langage.
Pour mieux appréhender ce déluge de termes
techniques, qui finit par brouiller la compréhension
des offres, voici quelques points de repères...
Consulter les autres Questions-Réponses
Les moteurs de recherche possèdent
tous leur index. A quoi sert-il ?
Il est difficile de parler de solutions de recherche
documentaire sans parler d'indexation. Présent
dans toute application de recherche digne de ce nom,
un index a pour but de référencer l'ensemble
de la base de documents. Généré
par un moteur d'indexation ou de classement, il se présente
généralement sous la forme d'un ou de
plusieurs fichiers de description de contenu.
Que
décrit l'index d'un moteur de recherche ?
Les systèmes
d'indexation se chargent le plus souvent d'identifier
l'ensemble des mots des textes gérés par
le moteur ainsi que leur position. Ce processus propre
au domaine informatique a été directement
initié par les éditeurs de solutions
-et en particulier ceux qui font la promotion des méthodes
de recherche s'adossant à une indexation "plein
texte" (tel que Verity par exemple).
Existe
t-il d'autres sortes d'index ?
Certains moteurs
s'appuient effectivement sur des types d'index différents
qui sont issus de démarches plus traditionnelles.
On peut citer d'une part la tradition documentaliste,
qui s'articule autour d'une indexation des textes par
mots clés - éventuellement sélectionnés
à partir de thésaurus (organisations de
termes en familles et sous-familles). Et d'autre part
les méthodologies plus proches du monde des
bibliothèques, qui recommandent la mise au
point de plans de classement (ou taxonomies) pour catégoriser
les documents. Un procédé qui est souvent
jugé peu souple en cas de modifications.
Les
moteurs incluent-il systématiquement une composante
statistique ?
L'ensemble des moteurs de recherche, y compris les plus
simples d'entre-eux (comme les moteurs booléens),
disposent en effet d'une logique statistique -basée
principalement sur des algorithmes. Appliquée
à l'index, leur objectif final est le plus souvent
de trier les réponses par ordre de pertinence.
Quels
sont les différents types d'algorithmes ?
Il existe de très nombreuses catégories
d'algorithmes. Certains moteurs -comme celui de Verity-
en intègrent plus de 30. Ces formules mathématiques
peuvent être classées en deux groupes.
Les premières comparent la répétition et l'espacement
des termes contenus dans la requête avec ceux
répertoriés par l'index, puis appliquent
un taux de pertinence aux réponses correspondantes.
Les secondes vont effectuer le classement en partant
du principe que plus un objet textuel est rare plus
sa valeur informative est élevée, technique utilisée
notamment par Triple-Hop.
Qu'en
est-il des moteurs sémantiques ?
Au delà du traitement statistique, certains
moteurs -dits sémantiques- intègrent également une batterie
d'analyseurs linguistiques (sémantiques, syntaxiques
etc.) et de dictionnaires permettant de ne plus seulement
indexer des mots, mais également des concepts (ou expressions)
ainsi que des synonymes et autres termes connexes. Ce
traitement permet d'optimiser les recherches qui seront
lancées par la suite sur l'index.
Quel
est le rôle des
analyseurs syntaxiques ?
Ces composants se chargent d'interpréter la structure
des phrases afin de repérer les mots vides de
sens (le, la, etc.) et d'isoler les concepts dans les
textes. Dans ce dernier cas, il s'agira par exemple
de saisir que la suite de mot "le la du diapason"
correspond à une expression.
...
Et des
analyseurs sémantiques ?
Les analyseurs sémantiques permettent de mieux appréhender
le sens des termes indexés. Couplés à des dictionnaires
et des thésaurus de concepts spécialisés, ils décryptent
les liens entre expressions approchantes contenues dans
une requête et ses réponses possibles dans l'index (tels
que "président de la république" et "chef de l'état").
Analyseurs syntaxiques et sémantiques sont parfois associés
en vue de pousser plus loin la démarche de compréhension
de l'application. Le couple assurera par exemple la
comparaison entre la requête "la souris de
mon PC" et le concept (extrait d'un texte) "le
cerveau des souris peut être modélisé
par un PC" pour aboutir à la conclusion
d'une différenciation sémantique entre
le terme souris des deux expressions.
Comment
les couches sémantiques et statistiques peuvent-elle
s'articuler ?
Certaines solutions
les associent en vue de calculer des distances sémantiques
entre les termes (ou expressions) d'une requête
et leurs équivalents dans les textes. Un processus
qui pourrait théoriquement permettre au final
de comprendre que l'expression "président
de la république" est plus proche de celle
de "chef de l'état" que de celle de
"chef du gouvernement".
La
performance des deux types de moteur est-elle différente ?
Même si elle contribue à optimiser le travail
de l'application, la couche sémantique implique
des temps de traitement sensiblement plus longs pour
un fichier de résultats également plus
lourd. Avant de mettre en oeuvre une telle solution,
il est par conséquent nécessaire d'évaluer
la taille de la base documentaire, mais également
de vérifier le taux d'expension affiché
par le moteur (10Mo de documents pour 5 Mo d'index est
souvent considéré comme un taux acceptable).
Autre caractéristique à prendre en compte :
le mode de stockage de l'index - sur disque dur ou en
mémoire vive. Naturellement plus rapide lors
de l'exécution des requêtes, le stockage
en mémoire vive ne sera pourtant pertinent que
dans le cas d'une base documentaire de taille moyenne.
Consulter les autres Questions-Réponses
Plusieurs experts (nous
les remercions au passage) nous ont apporté une
aide précieuse pour réaliser ce questions-réponses:
- Laurent Le Foll, directeur général de Qwam
System,
- Bernard Normier, directeur général de Lingway,
- Yves-Alain
Ligault, directeur du pôle Conseils en technologies
de Business
Interactif.
|
|
|
|
|
|