07/11/2001
Questions-réponses:
les moteurs de recherche
(Mis
à jour le 3/12/2001)
Quel est le périmètre
couvert par les moteurs de recherche ?
Historiquement,
les moteurs de recherche sont d'abord utilisés pour
effectuer des recherches sur les fichiers texte stockés
dans les répertoires d'un simple système
d'exploitation.
Au fil de l'avancement des
technologies, ce type d'application s'est ensuite
étendu à d'autres formats de fichiers (images, vidéos,
etc.), ainsi qu'aux bases de données. Le second terrain
de prédilection des moteurs arrive avec l'avènement
d'Internet, qui voit apparaître des outils capables
d'indexer des pages HTML stockées sur des serveurs Web
distants. Aujourd'hui, les grandes solutions de recherche
englobent de plus en plus ces deux aspects. Elles proposent
à la fois des modules capables de prendre en
compte système local ou des serveurs d'applications
sur un réseau interne et des serveurs Web accessibles
via Internet.
Quelles sont les principales
applications de ces solutions ?
Sur Internet, vous les connaissez. Il s'agit des moteurs
de recherche, tels que Google, HotBot,
etc. Ceux-ci étant généralement utilisés par
de grands portails ou annuaires de recherche (Yahoo,
Lycos et Altavista,
etc.). A côté de ce foisonnement d'applications propres
au Net, les solutions de recherche sont également
en passe de se généraliser dans le monde
de l'entreprise. Depuis l'assistance technique dans
le domaine du CRM, en passant par les traitements spécifiques
à un intranet de gestion documentaire, jusqu'aux services
de veille stratégique couvrant réseau interne et sites
Web, les outils de recherche sont omniprésents
à tous les étages.
Quelle différence entre
le mode de recherche dit "plein texte" et
la recherche sémantique ?
Alors qu'une recherche plein texte tente simplement
d'identifier les documents comprenant le plus grand
nombre de mots inclus dans la requête de l'utilisateur,
la technique sémantique passe
par une interprétation du sens de la demande.
S'appuyant
sur un ou plusieurs dictionnaires et thésaurus, et pourquoi
pas des
analyseurs syntaxiques, ce genre de méthode
prend à la fois en
compte les mots et les expressions connexes.
Ce qui peut permettre
au final d'effectuer une recherche sous la forme d'une
phrase simple.
Dictionnaire
et thésaurus, quelle différence ?
Plus ou moins spécialisé,
un thésaurus correspond à une liste de concepts (termes
ou expressions) classés par familles et sous-familles
en fonction d'un sens particulier. Ainsi, un thésaurus
lié au domaine informatique incluera Java dans la partie
langage de développement. Les moteurs utilisent généralement
ce type d'appui pour affiner la recherche de concepts
connexes, si aucun terme demandé ne figure dans son
index.
Au delà de l'analyse
du sens, quelles techniques utilisent les moteurs de
recherche ?
Certains moteurs enrichissent l'approche sémantique
par des algorithmes de recherche mesurant la co-occurrence
de mots (ou de sens) entre requêtes et documents. D'autres
outils statistiques
utilisent également l'analyse multi-dimensionnelle
: une technique qui s'inspire de celle des cubes OLAP
(OnLine Analytical Processing) - utilisée notamment
par les entrepôts de données au sein des systèmes décisionnels.
Ce type d'outil permet d'effectuer des recherches croisées
sur une base de données. Analyse vectorielle, théorie
de l'information de Shannon, inférence Baysienne, etc.
Dans ce domaine, les éditeurs n'hésitent pas à faire
appel aux grands théorèmes mathématiques.
A
quoi correspondent les requêtes booléennes
?
S'appuyant sur le modèle élaboré par le mathématicien
anglais Georges Bool, une requête 'booléenne' permet
d'inclure à une demande
certaines conditions (sous forme d'opérateurs).
Ainsi, une solution supportant cette technique peut
accueillir la question suivante : "prestataires
de service" and "informatique d'entreprise". Pour
répondre, le moteur recherche l'ensemble des
documents incluant les deux groupes de mots. Beaucoup
d'autres opérateurs existent, parmi lesquels "or", "near"
et "not".
Ces technologies sont-elles
mûres ?
Dans le domaine de la recherche sémantique, les
technologies commencent tout juste à faire leurs preuves.
Mais après quelques années de mise en
production, on s'est très vite rendu compte que
leur fonctionnement demandait souvent un suivi quotidien
des thésaurus et des dictionnaires associés. Sans compter
un paramétrage important en amont des projets. Au final,
les procédés les plus performants, et offrant un rapport/qualité
prix optimal, semblent être ceux qui rendent à
l'utilisateur une partie de la maîtrise de sa recherche.
Sans imposer une technique trop complexe (requêtes booléennes,
etc.), ils contribuent à affiner une demande
en affichant certaines informations - le nombre de réponses
disponibles ou encore l'ensemble des expressions indexées
proches de celles proposées. Il s'agit des assistants
de requêtes.
Existe-t-il des applications
métier plus spécifiques ?
Les éditeurs se concentrent beaucoup plus sur
des politiques généralistes que sur les
applications métier. Mais, comme cela été
dit dans la synthèse
de notre dossier, certaines solutions un peu plus
spécialisées commencent à apparaître,
notamment dans les domaines de la veille et de la gestion
documentaire.
|