Moteurs de recherche
: la pertinence, oui, mais pas seulement Par JDNet Solutions (Benchmark Group) URL : http://www.journaldunet.com/solutions/0310/031010_moteur.shtml Lancer l'impression Vendredi 10 octobre 2003
Le tout premier de ces critères ? Il pourrait s'agir de la pertinence. C'est en tous cas celui qui vient le premier en tête lorsqu'on évoque un tel projet. Retour sur la typologie des solutions En amont de toute étude, il est recommandé de distinguer précisément deux grandes catégories d'outils. D'abord, les moteurs linguistiquo-sémantiques qui s'adossent à des systèmes d'analyse avancés (ontologie de concepts, etc.), permettant notamment un affinage automatique des requêtes - par l'ajout de termes ou d'expressions connexes à la demande par exemple. "Du fait des caractéristiques propres aux diverses langues, ces logiciels sont généralement des produits nationaux", note le cabinet Bureau van Dijk, dans une étude publiée début 2003. Parmi les acteurs francophones de ce segment, on compte notamment Albert, Lingway, Sinequa ou encore Arisem. "Ce qui leur permet d'être plus rapide que leurs concurrents lors de l'indexation", insiste Jean-Paul Taravella, consultant en gestion des connaissances chez SchlumbergerSema. "Ce positionnement facilite aussi le support de langues plus nombreuses et, par là même, l'adoption d'une dimension internationale." Sans surprise, cette famille englobe les principaux éditeurs d'envergure mondiale : Verity, Hummingbird, Autonomy et IBM notamment. La pertinence : pas toujours le critère principal "Assez logiquement, les systèmes linguistiquo-sémantiques sont souvent plus onéreux que leurs homologues packagés", reconnaît Jean-Paul Taravella. Problème : comment montrer à sa direction générale que l'apport de ces moteurs, notamment en termes de pertinence, justifie l'investissement qu'ils impliquent ? Des tests comparatifs fournissent une première réponse à cette question. Sur ce point, on distingue principalement deux grandes démarches. "L'une consiste à étudier les réponses correspondant à des requêtes particulières, en ayant connaissance du corpus sous-jacent. L'autre passe par l'observation des comportements d'utilisateurs confrontés à une mission de recherche donnée", continue Paul Taravella. Au final, la pertinence demeure néanmoins extrêmement difficile à évaluer, tant elle implique de facteurs - jusqu'aux besoins propres à chaque client interne (usages, domaines de travail, etc.). "Heureusement, des éléments techniques beaucoup plus 'objectifs' peuvent être pris en considération parallèlement", assure t-on chez SchlumbergerSema. Au programme : la capacité de la solution à traiter d'importants volumes de données ainsi qu'à évoluer au fur et à mesure de la croissance de sa base, ses fonctions d'intégration (connecteurs, etc.) ainsi que le nombre de formats de fichiers qu'elle supporte notamment. Zoom sur l'index
Aux côtés de l'index, les possibilités
d'intégration sémantique de la plate-forme, telles que l'export
de dictionnaires ou de thésaurus additionnels (dans des formats
divers), devront être également passées aux cribles.
"Cela est d'autant plus important qu'il n'existe pas encore de vocabulaire
standard dans ces domaines", rappelle Jean-Paul Taravella. Dernier
dispositif critique à vérifier : le support de meta-données
(titre, auteur, etc.) sous forme d'informations structurées, en
XML par exemple, et les fonctions qu'il peut mettre en oeuvre (recherches
spécifiques, etc.). Pour tout problème de consultation, écrivez au Webmaster Copyrights et reproductions . Données personnelles Copyright 2006 Benchmark Group - 69-71 avenue Pierre Grenier 92517 Boulogne Billancourt Cedex, FRANCE |
|