Le choix d'une solution de
recherche passe par l'évaluation d'une série de
critères, des capacités fonctionnelles de l'outil aux
services proposés par l'éditeur en passant par ses possibilités
techniques.
Le tout premier de ces critères ? Il pourrait s'agir
de la pertinence. C'est en tous cas celui qui vient le
premier en tête lorsqu'on évoque un tel projet.
Retour
sur la typologie des solutions
En amont de toute
étude, il est recommandé de distinguer précisément deux
grandes catégories d'outils. D'abord, les moteurs linguistiquo-sémantiques
qui s'adossent à des systèmes d'analyse avancés (ontologie
de concepts, etc.), permettant notamment un affinage automatique
des requêtes - par l'ajout de termes ou d'expressions
connexes à la demande par exemple.
"Du fait des caractéristiques propres aux diverses langues,
ces logiciels sont généralement des produits nationaux",
note le cabinet Bureau van Dijk, dans une étude publiée
début 2003. Parmi les acteurs francophones de ce segment,
on compte notamment Albert, Lingway, Sinequa ou encore
Arisem.
Les
environnements packagés font figure d'alternative
à ce premier groupe. Principal différence
: ces technologies font appel à des mécanismes
de traitement linguistique souvent moins complexes (retour
à la racine des termes, etc.). "Ce qui leur
permet d'être plus rapide que leurs concurrents
lors de l'indexation", insiste Jean-Paul Taravella,
consultant en gestion des connaissances chez SchlumbergerSema.
"Ce positionnement facilite aussi le support de langues
plus nombreuses et, par là même, l'adoption
d'une dimension internationale." Sans surprise, cette
famille englobe les principaux éditeurs d'envergure mondiale :
Verity, Hummingbird, Autonomy et IBM notamment.
La
pertinence : pas toujours le critère principal
"Assez logiquement,
les systèmes linguistiquo-sémantiques sont souvent
plus onéreux que leurs homologues packagés",
reconnaît Jean-Paul Taravella. Problème :
comment montrer à sa direction générale
que l'apport de ces moteurs, notamment en termes de pertinence,
justifie l'investissement qu'ils impliquent ?
Des tests comparatifs fournissent une première
réponse à cette question. Sur ce point,
on distingue principalement deux grandes démarches.
"L'une consiste à étudier les réponses
correspondant à des requêtes particulières,
en ayant connaissance du corpus sous-jacent. L'autre passe
par l'observation des comportements d'utilisateurs confrontés
à une mission de recherche donnée",
continue Paul Taravella.
Au final, la pertinence demeure néanmoins extrêmement
difficile à évaluer, tant elle implique
de facteurs - jusqu'aux besoins propres à chaque
client interne (usages, domaines de travail, etc.). "Heureusement,
des éléments techniques beaucoup plus 'objectifs'
peuvent être pris en considération parallèlement",
assure t-on chez SchlumbergerSema. Au programme :
la capacité de la solution à traiter d'importants
volumes de données ainsi qu'à évoluer
au fur et à mesure de la croissance de sa base,
ses fonctions d'intégration (connecteurs, etc.)
ainsi que le nombre de formats de fichiers qu'elle supporte
notamment.
Zoom
sur l'index
Parmi ces éléments
techniques, il est conseillé d'examiner avec soin le
taux d'expansion du moteur. Une caractéristique qui
se révèlera particulièrement importante dans le cas
d'un entrepôt d'informations temps réel de taille importante,
le référentiel d'un groupe de presse par exemple. "10Mo
de documents pour 5 Mo d'index est souvent considéré
comme un niveau acceptable", indique Laurent Le Foll,
directeur général adjoint de Sinequa.
Aux côtés
de l'index, les possibilités d'intégration sémantique
de la plate-forme, telles que l'export de dictionnaires
ou de thésaurus additionnels (dans des formats
divers), devront être également passées
aux cribles. "Cela est d'autant plus important
qu'il n'existe pas encore de vocabulaire standard dans
ces domaines", rappelle Jean-Paul Taravella. Dernier
dispositif critique à vérifier : le support de
meta-données (titre, auteur, etc.) sous forme
d'informations structurées, en XML par exemple,
et les fonctions qu'il peut mettre en oeuvre (recherches
spécifiques, etc.).
|