Journal du Net > Solutions >  Convera appuie la recherche floue sur l'analyse binaire des sources
Article
 
21/09/01

Convera appuie la recherche floue sur l'analyse binaire des sources

  Envoyer Imprimer  

Sur le marché des solutions de recherche, Convera a opté pour un positionnement horizontal. Baptisé RetrievalWare, le moteur de l'éditeur américain adresse pêle-mêle les problématiques d'intranets documentaires, de veille stratégique, et de sites Web. Son coeur technologique: un mode de recherche floue reposant sur un processus assez inhabituel. "Nous allons au-delà du traitement des chaînes de caractères, technique habituellement utilisée par les produits d'indexation plein texte traditionnels", indique Jay M'Bei, directeur général de Convera France. "Schématiquement, notre option compare les séquences de lettres par l'analyse de leur valeur binaire". Grâce à ce système, n'importe quelle erreur d'orthographe pourrait être potentiellement détectée. "Y compris celles qui dépassent le champ d'action des filtres logiques (phonétique, etc.)", précise le responsable. Un "d" transformé en "ch" dans le terme d'une requête serait ainsi repéré par le moteur.

Recherches floues, sémantiques et booléennes

Opérateurs de date, de titre (etc.), mais également requêtes conditionnelles,... RetrievalWare inclut l'ensemble des fonctions d'un moteur booléen -sur la base desquelles il peut d'ailleurs générer des formulaires multi-critères. Parallèlement, un mode sémantique permet à l'utilisateur de préciser une recherche. Se basant sur des dictionnaires et des thésaurus, il lui propose différents réseaux sémantiques en fonction d'une analyse des indexes. Le mot "souris" pourra classiquement être associé au domaine informatique ou à celui du monde animal. Autre moyen d'affinage: la possibilité de définir des distances sémantiques, c'est-à-dire d'élargir ou de restreindre la recherche à une thématique donnée. Pour assurer ce traitement linguistique, Convera fournit des lexiques couvrant une dizaine de langues (dont le français, l'allemand, l'espagnol, le portugais et l'italien). En outre, RetrievalWare supporte Langage Plug-In: un protocole qui facilite l'intégration de dictionnaires et de thésaurus tiers. "Par ce biais, le produit peut tout à fait s'adapter à des problématiques métier spécifiques", insiste t-on chez Convera.

"Le moteur gère aussi les formats image", complète le directeur de la filiale française. Le traitement de ce type de document associe une analyse binaire des fichiers à l'indexation des textes de leurs meta données. "Notre technologie ne fonctionne pas pour tout type de prise de vue", remarque Jay M'Bei. Dominantes de couleurs ou de formes seront particulièrement bien gérées. En revanche, le système ne "pourra pas remplacer la subjectivité humaine, notamment autour de l'interprétation des angles de prises de vues".

Une intégration EAI et BtoB
RetrievalWare s'appuie sur les protocoles pour indexer des bases de données relationnelles disponibles sur un réseau interne -voire afficher leur contenu, et éventuellement le rapatrier. Des synchroniseurs spécifiques associant des données d'applications tierces (Lotus Notes, Microsoft Exchange, Documentum, SAP, etc.). Lors de la l'accès à ces diverses sources, le produit, qui propose son propre outil de gestion des droits, est capable de prendre en compte les systèmes de sécurité des plates-formes distantes (notamment leur Access Control List), ou de se synchroniser avec un annuaire LDAP stockant des profils utilisateur. "Bref, nul besoin de répliquer un environnement de sécurité existant", conclut Jay M'Bei.

Tournant sous les systèmes d'exploitation Windows NT et Unix, les modules d'indexation et de recherche de RetrievalWare pourront respectivement être installés sur plusieurs machines. Pour gérer la montée en charge sur ces architectures en grappe, l'application est livrée avec un outil de calcul et d'équilibrage des ressources et de la bande passante. Baptisé WeSpider, un agent intelligent fourni en option, se charge pour sa part d'indexer et/ou de rapatrier les pages Web stockées sur les serveurs Internet. Les modules Scheduler et Profiler viennent compléter ce travail par un suivi de l'évolution des contenus des sites Web.

Déclinant sa solution en deux produits -SmartSearch pour les environnement intranet et WebExpress pour les sites Web-, Convera affiche notamment parmi ses clients PSA et Bouygues Telecom (avec des intranets), Air France (avec un système de veille concurrencielle) et Atlas (avec Webencyclo). La licence d'exploitation de
WebExpress avoisine les 54 000 euros.


JDN Solutions Envoyer Imprimer Haut de page

Sondage

Recourir à un service cloud comme unique solution de stockage de fichiers, vous y croyez ?

Tous les sondages