17/05/01
Autonomy
met l'extraction de concepts au service de la recherche
Avec la multiplication
des bases d'informations, structurées ou non,
la recherche documentaire a tendance à devenir
un véritable casse-tête pour les entreprises.
Afin d'apporter une réponse à cette problématique,
plusieurs acteurs se sont lancés depuis déjà
quelques années dans le développement
d'outils de recherche documentaire. Parmi eux, on compte
notamment Inktomi, Verity ou encore Hummingbird. L'américain
Autonomy
se positionne également sur ce créneau
en éditant une solution de recherche destinée
aux extranets, intranets ou sites Web.
Au coeur de la solution d'Autonomy figure la base de
données Dynamic Reasoning Engine (DRE) : une application
qui permet d'agréger - en s'appuyant sur un réseau
IP - des données en provenance de bases diverses installées
sur des plates-formes distantes, puis de les compiler
de manière structurée.
Un module de recheche permet quant à lui de retrouver
des documents en fonction de requêtes saisies
en texte intégral. "Contrairement à d'autres
éditeurs, tels que Verity ou Hummingbird, notre outil
repose sur l'extraction de concepts", défend
Frédéric Demangeot, responsable avant-vente d'Autonomy...
Ici, une explication s'impose.
La
conceptualisation du mode de recherche
"Les
requêtes sont mises en rapport avec des documents contenant
des concepts connexes", résume Frédéric
Demangeot. Ces concepts pouvant être aussi bien
des chaînes de caractères que des expressions ou encore
des groupes de mots. Pour ce faire, le module d'Autonomy
utilise deux méthodes mathématiques. La première est
la théorie de l'information de Shannon. "Schématiquement,
cette technique détermine le degré d'importance des
concepts extraits des textes, et ceci en fonction de
leur fréquence d'apparition", précise
Frédéric Demangeot. Deuxième règle utilisée : celle
de l'inférence Baysienne. "Une théorie qui repose sur
une probabilité de co-occurrence entre deux concepts,
c'est-à-dire la chance que deux concepts apparaissent
dans le même contexte", poursuit Frédéric Demangeot.
En croisant ces deux méthodes, le moteur identifie des
échantillons de lettres ou de mots dans un document.
Le tout en s'appuyant, comme nous l'avons vu, sur l'utilisation
et la fréquence d'apparition de termes correspondants
à une idée ou à un concept spécifique. Puis, il repère
la primauté de certains échantillons sur d'autres afin
de déterminer la probabilité qu'un document donné corresponde
à l'idée ou au concept requis par l'utilisateur. En
fonction de cette probabilité, il génère
pour finir une liste de réponses classées
par degré de pertinence.
Côté déploiement, la démarche
paraît simple : aprés avoir installé
la base de données, il faut paramétrer
les connexions vers les bases distantes en renseignant
un formulaire classique : mot de passe, adresse
IP, champs, etc. Quant au module de recherche, il est
appelé dans l'interface client par un script.
Une
problématique multi-secteurs
Autonomy
entend destiner autant sa technologie aux grandes entreprises
qu'aux PME. Une certitude, les tarifs affichés
de la solution baptisée Portal in the Box, environ
100 000 euros pour 250 utilisateurs, réservent
celles-ci à des sociétés confrontées
à des problématiques lourdes d'indexation
et de recherche documentaire. Parmi les gros clients
français, la société affiche notamment
Eurosport et France Telecom. "TF1a également
choisi notre solution de recherche pour son site Internet",
ajoute Emanuel Meriot. La base de ce site contiendrait
désormais plus de 1,5 millions documents.
|