Untitled Document

Moteurs de recherche : la pertinence, oui, mais pas seulement
Par JDNet Solutions (Benchmark Group)
URL : http://www.journaldunet.com/solutions/0310/031010_moteur.shtml
Lancer l'impression

Vendredi 10 octobre 2003

En savoir plus

Panorama Les outils de recherche

Le choix d'une solution de recherche passe par l'évaluation d'une série de critères, des capacités fonctionnelles de l'outil aux services proposés par l'éditeur en passant par ses possibilités techniques.

Le tout premier de ces critères ? Il pourrait s'agir de la pertinence. C'est en tous cas celui qui vient le premier en tête lorsqu'on évoque un tel projet.

Retour sur la typologie des solutions
En amont de toute étude, il est recommandé de distinguer précisément deux grandes catégories d'outils. D'abord, les moteurs linguistiquo-sémantiques qui s'adossent à des systèmes d'analyse avancés (ontologie de concepts, etc.), permettant notamment un affinage automatique des requêtes - par l'ajout de termes ou d'expressions connexes à la demande par exemple.

"Du fait des caractéristiques propres aux diverses langues, ces logiciels sont généralement des produits nationaux", note le cabinet Bureau van Dijk, dans une étude publiée début 2003. Parmi les acteurs francophones de ce segment, on compte notamment Albert, Lingway, Sinequa ou encore Arisem.

Les environnements packagés font figure d'alternative à ce premier groupe. Principal différence : ces technologies font appel à des mécanismes de traitement linguistique souvent moins complexes (retour à la racine des termes, etc.).

"Ce qui leur permet d'être plus rapide que leurs concurrents lors de l'indexation", insiste Jean-Paul Taravella, consultant en gestion des connaissances chez SchlumbergerSema. "Ce positionnement facilite aussi le support de langues plus nombreuses et, par là même, l'adoption d'une dimension internationale." Sans surprise, cette famille englobe les principaux éditeurs d'envergure mondiale : Verity, Hummingbird, Autonomy et IBM notamment.

La pertinence : pas toujours le critère principal
"Assez logiquement, les systèmes linguistiquo-sémantiques sont souvent plus onéreux que leurs homologues packagés", reconnaît Jean-Paul Taravella. Problème : comment montrer à sa direction générale que l'apport de ces moteurs, notamment en termes de pertinence, justifie l'investissement qu'ils impliquent ?

Des tests comparatifs fournissent une première réponse à cette question. Sur ce point, on distingue principalement deux grandes démarches. "L'une consiste à étudier les réponses correspondant à des requêtes particulières, en ayant connaissance du corpus sous-jacent. L'autre passe par l'observation des comportements d'utilisateurs confrontés à une mission de recherche donnée", continue Paul Taravella.

Au final, la pertinence demeure néanmoins extrêmement difficile à évaluer, tant elle implique de facteurs - jusqu'aux besoins propres à chaque client interne (usages, domaines de travail, etc.). "Heureusement, des éléments techniques beaucoup plus 'objectifs' peuvent être pris en considération parallèlement", assure t-on chez SchlumbergerSema. Au programme : la capacité de la solution à traiter d'importants volumes de données ainsi qu'à évoluer au fur et à mesure de la croissance de sa base, ses fonctions d'intégration (connecteurs, etc.) ainsi que le nombre de formats de fichiers qu'elle supporte notamment.

Zoom sur l'index
Parmi ces éléments techniques, il est conseillé d'examiner avec soin le taux d'expansion du moteur. Une caractéristique qui se révèlera particulièrement importante dans le cas d'un entrepôt d'informations temps réel de taille importante, le référentiel d'un groupe de presse par exemple. "10Mo de documents pour 5 Mo d'index est souvent considéré comme un niveau acceptable", indique Laurent Le Foll, directeur général adjoint de Sinequa.

En savoir plus

Panorama Les outils de recherche

Aux côtés de l'index, les possibilités d'intégration sémantique de la plate-forme, telles que l'export de dictionnaires ou de thésaurus additionnels (dans des formats divers), devront être également passées aux cribles. "Cela est d'autant plus important qu'il n'existe pas encore de vocabulaire standard dans ces domaines", rappelle Jean-Paul Taravella. Dernier dispositif critique à vérifier : le support de meta-données (titre, auteur, etc.) sous forme d'informations structurées, en XML par exemple, et les fonctions qu'il peut mettre en oeuvre (recherches spécifiques, etc.).

[Antoine Crochet-Damais, JDNet]

Pour tout problème de consultation, écrivez au Webmaster
Copyrights et reproductions . Données personnelles
Copyright 2006 Benchmark Group - 69-71 avenue Pierre Grenier
92517 Boulogne Billancourt Cedex, FRANCE