Journal du Net > Solutions >  Questions-réponses: les moteurs de recherche
Article
 
07/11/2001

Questions-réponses: les moteurs de recherche

  Envoyer Imprimer  

(Mis à jour le 3/12/2001)

Quel est le périmètre couvert par les moteurs de recherche ?
Historiquement, les moteurs de recherche sont d'abord utilisés pour effectuer des recherches sur les fichiers texte stockés dans les répertoires d'un simple système

D'autres
Questions-Réponses ?
> Sommaire
>
La boucle locale Radio
> Business Intelligence
> Stockage: San, Nas...
> La stratégie .NET de Microsoft
d'exploitation. Au fil de l'avancement des technologies, ce type d'application s'est ensuite étendu à d'autres formats de fichiers (images, vidéos, etc.), ainsi qu'aux bases de données. Le second terrain de prédilection des moteurs arrive avec l'avènement d'Internet, qui voit apparaître des outils capables d'indexer des pages HTML stockées sur des serveurs Web distants. Aujourd'hui, les grandes solutions de recherche englobent de plus en plus ces deux aspects. Elles proposent à la fois des modules capables de prendre en compte système local ou des serveurs d'applications sur un réseau interne et des serveurs Web accessibles via Internet.

Quelles sont les principales applications de ces solutions ?
Sur Internet, vous les connaissez. Il s'agit des moteurs de recherche, tels que Google, HotBot, etc. Ceux-ci étant généralement utilisés par de grands portails ou annuaires de recherche (Yahoo, Lycos et Altavista, etc.). A côté de ce foisonnement d'applications propres au Net, les solutions de recherche sont également en passe de se généraliser dans le monde de l'entreprise. Depuis l'assistance technique dans le domaine du CRM, en passant par les traitements spécifiques à un intranet de gestion documentaire, jusqu'aux services de veille stratégique couvrant réseau interne et sites Web, les outils de recherche sont omniprésents à tous les étages.

Quelle différence entre le mode de recherche dit "plein texte" et la recherche sémantique ?
Alors qu'une recherche plein texte tente simplement d'identifier les documents comprenant le plus grand nombre de mots inclus dans la requête de l'utilisateur, la technique sémantique passe par une interprétation du sens de la demande. S'appuyant sur un ou plusieurs dictionnaires et thésaurus, et pourquoi pas des analyseurs syntaxiques, ce genre de méthode prend à la fois en compte les mots et les expressions connexes. Ce qui peut permettre au final d'effectuer une recherche sous la forme d'une phrase simple.

Dictionnaire et thésaurus, quelle différence ?
Plus ou moins spécialisé, un thésaurus correspond à une liste de concepts (termes ou expressions) classés par familles et sous-familles en fonction d'un sens particulier. Ainsi, un thésaurus lié au domaine informatique incluera Java dans la partie langage de développement. Les moteurs utilisent généralement ce type d'appui pour affiner la recherche de concepts connexes, si aucun terme demandé ne figure dans son index.

Au delà de l'analyse du sens, quelles techniques utilisent les moteurs de recherche ?
Certains moteurs enrichissent l'approche sémantique par des algorithmes de recherche mesurant la co-occurrence de mots (ou de sens) entre requêtes et documents. D'autres outils statistiques utilisent également l'analyse multi-dimensionnelle : une technique qui s'inspire de celle des cubes OLAP (OnLine Analytical Processing) - utilisée notamment par les entrepôts de données au sein des systèmes décisionnels. Ce type d'outil permet d'effectuer des recherches croisées sur une base de données. Analyse vectorielle, théorie de l'information de Shannon, inférence Baysienne, etc. Dans ce domaine, les éditeurs n'hésitent pas à faire appel aux grands théorèmes mathématiques.

A quoi correspondent les requêtes booléennes  ?
S'appuyant sur le modèle élaboré par le mathématicien anglais Georges Bool, une requête 'booléenne' permet d'inclure à une demande certaines conditions (sous forme d'opérateurs). Ainsi, une solution supportant cette technique peut accueillir la question suivante : "prestataires de service" and "informatique d'entreprise". Pour répondre, le moteur recherche l'ensemble des documents incluant les deux groupes de mots. Beaucoup d'autres opérateurs existent, parmi lesquels "or", "near" et "not".


Ces technologies sont-elles mûres ?
Dans le domaine de la recherche sémantique, les technologies commencent tout juste à faire leurs preuves. Mais après quelques années de mise en production, on s'est très vite rendu compte que leur fonctionnement demandait souvent un suivi quotidien des thésaurus et des dictionnaires associés. Sans compter un paramétrage important en amont des projets. Au final, les procédés les plus performants, et offrant un rapport/qualité prix optimal, semblent être ceux qui rendent à l'utilisateur une partie de la maîtrise de sa recherche. Sans imposer une technique trop complexe (requêtes booléennes, etc.), ils contribuent à affiner une demande en affichant certaines informations - le nombre de réponses disponibles ou encore l'ensemble des expressions indexées proches de celles proposées. Il s'agit des assistants de requêtes.

Existe-t-il des applications métier plus spécifiques ?
Les éditeurs se concentrent beaucoup plus sur des politiques généralistes que sur les applications métier. Mais, comme cela été dit dans la synthèse de notre dossier, certaines solutions un peu plus spécialisées commencent à apparaître, notamment dans les domaines de la veille et de la gestion documentaire.


JDN Solutions Envoyer Imprimer Haut de page

Sondage

Votre entreprise évolue-t-elle vers une informatique bimodale ?

Tous les sondages