Les technologies des moteurs de recherche en 10 questions

BOURSE

Relation-Client

Les technologies des moteurs de recherche en 10 questions

Index, moteurs sémantiques, syntaxiques, analyseurs... JDNet Solutions a consulté plusieurs experts pour vous éclairer sur les techniques des moteurs de recherche du marché. (Jeudi 14 février 2002)

Dans le domaine des moteurs de recherche, les discours des éditeurs semblent souvent assez proches. Partant tous d'une logique applicative de traitement statistique, la plupart d'entre eux se sont équipés au fil des années d'analyseurs sémantiques et grammaticaux afin de prendre en compte le sens du langage. Pour mieux appréhender ce déluge de termes techniques, qui finit par brouiller la compréhension des offres, voici quelques points de repères...

Consulter les autres Questions-Réponses

Les moteurs de recherche possèdent tous leur index. A quoi sert-il ?
Il est difficile de parler de solutions de recherche documentaire sans parler d'indexation. Présent dans toute application de recherche digne de ce nom, un index a pour but de référencer l'ensemble de la base de documents. Généré par un moteur d'indexation ou de classement, il se présente généralement sous la forme d'un ou de plusieurs fichiers de description de contenu.

Que décrit l'index d'un moteur de recherche ?
Les systèmes d'indexation se chargent le plus souvent d'identifier l'ensemble des mots des textes gérés par le moteur ainsi que leur position. Ce processus propre au domaine informatique a été directement initié par les éditeurs de solutions -et en particulier ceux qui font la promotion des méthodes de recherche s'adossant à une indexation "plein texte" (tel que Verity par exemple).

Existe t-il d'autres sortes d'index ?
Certains moteurs s'appuient effectivement sur des types d'index différents qui sont issus de démarches plus traditionnelles. On peut citer d'une part la tradition documentaliste, qui s'articule autour d'une indexation des textes par mots clés - éventuellement sélectionnés à partir de thésaurus (organisations de termes en familles et sous-familles). Et d'autre part les méthodologies plus proches du monde des bibliothèques, qui recommandent la mise au point de plans de classement (ou taxonomies) pour catégoriser les documents. Un procédé qui est souvent jugé peu souple en cas de modifications.

Les moteurs incluent-il systématiquement une composante statistique ?
L'ensemble des moteurs de recherche, y compris les plus simples d'entre-eux (comme les moteurs booléens), disposent en effet d'une logique statistique -basée principalement sur des algorithmes. Appliquée à l'index, leur objectif final est le plus souvent de trier les réponses par ordre de pertinence.

Quels sont les différents types d'algorithmes ?
Il existe de très nombreuses catégories d'algorithmes. Certains moteurs -comme celui de Verity- en intègrent plus de 30. Ces formules mathématiques peuvent être classées en deux groupes. Les premières comparent la répétition et l'espacement des termes contenus dans la requête avec ceux répertoriés par l'index, puis appliquent un taux de pertinence aux réponses correspondantes. Les secondes vont effectuer le classement en partant du principe que plus un objet textuel est rare plus sa valeur informative est élevée, technique utilisée notamment par Triple-Hop.

Qu'en est-il des moteurs sémantiques ?
Au delà du traitement statistique, certains moteurs -dits sémantiques- intègrent également une batterie d'analyseurs linguistiques (sémantiques, syntaxiques etc.) et de dictionnaires permettant de ne plus seulement indexer des mots, mais également des concepts (ou expressions) ainsi que des synonymes et autres termes connexes. Ce traitement permet d'optimiser les recherches qui seront lancées par la suite sur l'index.

Quel est le rôle des analyseurs syntaxiques ?
Ces composants se chargent d'interpréter la structure des phrases afin de repérer les mots vides de sens (le, la, etc.) et d'isoler les concepts dans les textes. Dans ce dernier cas, il s'agira par exemple de saisir que la suite de mot "le la du diapason" correspond à une expression.

... Et des analyseurs sémantiques ?
Les analyseurs sémantiques permettent de mieux appréhender le sens des termes indexés. Couplés à des dictionnaires et des thésaurus de concepts spécialisés, ils décryptent les liens entre expressions approchantes contenues dans une requête et ses réponses possibles dans l'index (tels que "président de la république" et "chef de l'état").

Analyseurs syntaxiques et sémantiques sont parfois associés en vue de pousser plus loin la démarche de compréhension de l'application. Le couple assurera par exemple la comparaison entre la requête "la souris de mon PC" et le concept (extrait d'un texte) "le cerveau des souris peut être modélisé par un PC" pour aboutir à la conclusion d'une différenciation sémantique entre le terme souris des deux expressions.

Comment les couches sémantiques et statistiques peuvent-elle s'articuler ?
Certaines solutions les associent en vue de calculer des distances sémantiques entre les termes (ou expressions) d'une requête et leurs équivalents dans les textes. Un processus qui pourrait théoriquement permettre au final de comprendre que l'expression "président de la république" est plus proche de celle de "chef de l'état" que de celle de "chef du gouvernement".

La performance des deux types de moteur est-elle différente ?
Même si elle contribue à optimiser le travail de l'application, la couche sémantique implique des temps de traitement sensiblement plus longs pour un fichier de résultats également plus lourd. Avant de mettre en oeuvre une telle solution, il est par conséquent nécessaire d'évaluer la taille de la base documentaire, mais également de vérifier le taux d'expension affiché par le moteur (10Mo de documents pour 5 Mo d'index est souvent considéré comme un taux acceptable). Autre caractéristique à prendre en compte : le mode de stockage de l'index - sur disque dur ou en mémoire vive. Naturellement plus rapide lors de l'exécution des requêtes, le stockage en mémoire vive ne sera pourtant pertinent que dans le cas d'une base documentaire de taille moyenne.

Consulter les autres Questions-Réponses

Plusieurs experts (nous les remercions au passage) nous ont apporté une aide précieuse pour réaliser ce questions-réponses:
- Laurent Le Foll, directeur général de Qwam System,
- Bernard Normier, directeur général de Lingway,
- Yves-Alain Ligault, directeur du pôle Conseils en technologies de Business Interactif.

[Antoine Crochet Damais, JDNet]

Accueil | Haut de page

Nouvelles offres d'emploi sur Emploi Center

Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY