|
|
|
|
Relation-Client |
Technologies-GID
mise sur l'analyse morpho-syntaxique |
Avec Spirit, l'éditeur se place sur le terrain de la recherche Web... sans dénigrer celui des intranets documentaires. (Mardi
26 mars 2002) |
|
A lire aussi :
Dossier: Moteurs
de recherche: la quête du sens
A la manière du québécois Delphes
Technologies (voir
l'article sur le sujet), Technologies-GID
adosse son outil de recherche à une méthode
d'analyse morpho-syntaxique. Baptisé Spirit, celui-ci
cible à la fois les environnements Web et intranet.
Un positionnement qui se vérifie lorsqu'on observe
ses mises en application : Spirit est notamment utilisé
par les sites du Ministère
des Finance, de la Cours
des Comptes, de la Banque
de France et de RTL,
mais également par le système documentaire
des AGF, du CEA ou encore de RFO. "Certains partenaires
-comme Digimind-
intègre notre produit à leurs outils de
gestion des connaissances", ajoute Lilian Blochet,
directeur technique chez Technologies-GID.
De
l'indexation à la recherche...
Qu'est-ce que
l'analyse morpho-syntaxique ? Associant méthode
grammaticale et repérage du positionnement des
mots
dans une phrase ou une expression, ce mécanisme
a pour but de limiter les réponses non-pertinentes
liées à l'homographie. "Il s'agit par
exemple de déterminer à quoi correspond
le terme 'voile' -qui peut renvoyer au verbe 'voiler'
ou encore aux noms communs 'le voile' et 'la voile'",
indique Lilian Blochet. Concrètement, cette analyse
qui est appliquée à la fois lors des étapes
d'indexation et de recherche consiste à ramener
les mots à leur forme substantive et les verbes
conjugués à l'infinitif.
A cette première couche s'ajoute la prise en compte
des synonymes et autres termes connexes. Capable de traiter
aussi bien du français que de l'anglais, le moteur
de Technologies-GID pousse cette logique jusqu'à
l'approche cross-linguistique. "Il est possible en
effet de lancer une requête en anglais sur un index
en français -et réciproquement", commente
t-on chez l'éditeur. Pour mettre en oeuvre ces
mécanismes, le moteur est livré avec des
dictionnaires et précis d'analogie (français/français,
français/anglais, etc.). Une interface d'administration
permet d'intégrer du vocabulaire spécialisé
et de nouvelles règles d'analogie.
...une
méthode d'analyse morpho-syntaxique
L'application
cliente de Spirit s'intègre au sein d'un site Web en s'appuyant
sur des scripts CGI ou PHP. Disponible sous forme d'une
interface Windows, elle peut s'inscrire au besoin dans
un logiciel tiers par le biais d'une interface de programmation
d'applications (C++). Suite à une requête, le format de
réponses qu'elle met en oeuvre semble relativement original.
Celui-ci classe les documents en fonction de l'intimité
syntaxique des termes de la requête -ou de leur(s) synonyme(s).
Ainsi suite à la demande "les bateaux de la marine anglaise",
le moteur rapportera en premier lieu les documents présentant
les trois mots [bateau, marine et anglais] dans la même
construction de phrase.
"Un composant
(Collector) se charge de collecter les pages Web distantes
ou les données texte des bases de données
relationnelles, puis de générer l'indexe,
enchaîne Lilian Blochet.
Nous disposons déjà d'interfaces JDBC, Oracle,
DB2 et ColdFusion". Quant aux autres formats de fichiers
(bureautiques, etc.), ils devront passer par une fonction
de traduction en HTML. La solution affiche un prix d'entrée
aux alentours de 20 000 euros.
A lire aussi :
Dossier: Moteurs
de recherche: la quête du sens
|
|
|
|
|
|