Journal du Net > Solutions >  Autonomy met l'extraction de concepts au service de la recherche
Article
 
17/05/01

Autonomy met l'extraction de concepts au service de la recherche

  Envoyer Imprimer  

Avec la multiplication des bases d'informations, structurées ou non, la recherche documentaire a tendance à devenir un véritable casse-tête pour les entreprises. Afin d'apporter une réponse à cette problématique, plusieurs acteurs se sont lancés depuis déjà quelques années dans le développement d'outils de recherche documentaire. Parmi eux, on compte notamment Inktomi, Verity ou encore Hummingbird. L'américain Autonomy se positionne également sur ce créneau en éditant une solution de recherche destinée aux extranets, intranets ou sites Web.

Au coeur de la solution d'Autonomy figure la base de données Dynamic Reasoning Engine (DRE) : une application qui permet d'agréger - en s'appuyant sur un réseau IP - des données en provenance de bases diverses installées sur des plates-formes distantes, puis de les compiler de manière structurée.
Un module de recheche permet quant à lui de retrouver des documents en fonction de requêtes saisies en texte intégral. "Contrairement à d'autres éditeurs, tels que Verity ou Hummingbird, notre outil repose sur l'extraction de concepts", défend Frédéric Demangeot, responsable avant-vente d'Autonomy... Ici, une explication s'impose.

La conceptualisation du mode de recherche
"Les requêtes sont mises en rapport avec des documents contenant des concepts connexes", résume Frédéric Demangeot. Ces concepts pouvant être aussi bien des chaînes de caractères que des expressions ou encore des groupes de mots. Pour ce faire, le module d'Autonomy utilise deux méthodes mathématiques. La première est la théorie de l'information de Shannon. "Schématiquement, cette technique détermine le degré d'importance des concepts extraits des textes, et ceci en fonction de leur fréquence d'apparition", précise Frédéric Demangeot. Deuxième règle utilisée : celle de l'inférence Baysienne. "Une théorie qui repose sur une probabilité de co-occurrence entre deux concepts, c'est-à-dire la chance que deux concepts apparaissent dans le même contexte", poursuit Frédéric Demangeot.

En croisant ces deux méthodes, le moteur identifie des échantillons de lettres ou de mots dans un document. Le tout en s'appuyant, comme nous l'avons vu, sur l'utilisation et la fréquence d'apparition de termes correspondants à une idée ou à un concept spécifique. Puis, il repère la primauté de certains échantillons sur d'autres afin de déterminer la probabilité qu'un document donné corresponde à l'idée ou au concept requis par l'utilisateur. En fonction de cette probabilité, il génère pour finir une liste de réponses classées par degré de pertinence.


Côté déploiement, la démarche paraît simple : aprés avoir installé la base de données, il faut paramétrer les connexions vers les bases distantes en renseignant un formulaire classique : mot de passe, adresse IP, champs, etc. Quant au module de recherche, il est appelé dans l'interface client par un script.

Une problématique multi-secteurs
Autonomy entend destiner autant sa technologie aux grandes entreprises qu'aux PME. Une certitude, les tarifs affichés de la solution baptisée Portal in the Box, environ 100 000 euros pour 250 utilisateurs, réservent celles-ci à des sociétés confrontées à des problématiques lourdes d'indexation et de recherche documentaire. Parmi les gros clients français, la société affiche notamment Eurosport et France Telecom. "TF1a également choisi notre solution de recherche pour son site Internet", ajoute Emanuel Meriot. La base de ce site contiendrait désormais plus de 1,5 millions documents.


JDN Solutions Envoyer Imprimer Haut de page

Sondage

Votre entreprise évolue-t-elle vers une informatique bimodale ?

Tous les sondages