Journal du Net > Solutions >  Lexiquest investit le terrain de la catégorisation automatique documentaire
Article
 
29/10/01

Lexiquest investit le terrain de la catégorisation automatique documentaire

  Envoyer Imprimer  

Lexiquest complète sa suite de gestion de contenu non-structuré d'un outil de catégorisation automatique de documents. Nom de code: LexiQuest Categorize. Et à la manière de ses applications de recherche et de cartographie des données, l'éditeur a choisi d'articuler le produit autour d'un kit de développement (SDK).


Classification automatique de documents
En amont de sa mise en production, la solution nécessite la structuration d'un arbre de catégories. Pour assurer cette fonction, qui n'est pas disponible dans le produit, la société propose LexiQuest Mine: un outil d'aide à la construction des plans de classement. "Le champs sémantique de chaque partie sera lui-même défini en fonction d'un ensemble de textes de référence", précise Olivier Jouve, directeur des opérations France et Benelux de Lexiquest. Après avoir intégré cette arborescence, LexiQuest Categorize va être capable de classer les nouvelles entrées de manière autonome.

Pour ce faire, l'application commence par extraire les concepts (ou expressions) représentatifs des
fichiers intégrés, en s'appuyant sur des ressources linguistiques généralistes (grammaires et autres dictionnaires de base). Puis, elle utilise un algorithme spécifique afin de repérer la catégorie dont le référentiel de concepts est le plus proche. Au final, un modèle probabiliste vient pondérer les résultats par le calcul de taux de réussite. "Le tout s'effectue automatiquement à un rythme potentiel de 500 000 pages à l'heure", précise Olivier Jouve. En fin de chaîne, un module assure un contrôle de pertinence -et met un document en attente le cas échéant.

Capable de prendre en charge les formats de fichiers bureautiques les plus couramment utilisés (Office, PDF, etc.), LexiQuest Categorize peut restreindre son analyse textuel à certaines balises HTML ou XML.


Un SDK pour l'intégration à l'existant
Le SDK permet d'intégrer potentiellement n'importe quel système d'entreprise (Oracle, Notes, Broadvision, etc.) et/ou interfaces clientes (Web, etc.). Des agents donnent la possibilité de récupérer des informations stockées sur des sites Web distants. "Les droits d'utilisation seront gérés directement par l'environnement dans lequel l'application est intégrée", pointe
Olivier Jouve. Une fonction qui pourrait permettre par exemple de proposer des arborescences par département associées à des accès limités en fonction de profils particuliers.

Disponible en C ou en Java, le kit, qui fournit cinq fonctions principales et jusqu'à 400 fonctions secondaires, tourne aussi bien sous Windows NT que sous Unix (Solaris). "Outre les capacités de traitement, il est tout à fait possible d'appuyer les appels de fonctions sur une série de serveurs frontaux en grappe, et de stocker un même plan de classement sur une seconde série de machines", commente le responsable.

Fort de cette nouvelle solution, Lexiquest compte adresser les problématiques de veille, mais aussi de traitement d'e-mails et
de portails de gestion documentaire. Sur ce dernier point, l'éditeur propose notamment un module d'analyse morphologique et textuel spécialisé dans le traitement des brevets. Affichant un prix d'entrée de 70 000 euros, LexiQuest Categorize devrait prochainement inclure un système de conception d'arborescence. Parmi ses principaux concurrents sur ce segment, les responsables de Lexiquest citent Insite et Autonomy.


JDN Solutions Envoyer Imprimer Haut de page

Sondage

Recourir à un service cloud comme unique solution de stockage de fichiers, vous y croyez ?

Tous les sondages