29/10/01
Lexiquest
investit le terrain de la catégorisation automatique documentaire
Lexiquest
complète
sa suite de gestion de contenu non-structuré d'un
outil de catégorisation automatique de documents.
Nom de code: LexiQuest Categorize. Et à la manière
de ses applications de recherche et de cartographie des
données, l'éditeur a choisi d'articuler
le produit autour d'un kit de développement (SDK).
Classification
automatique de documents
En amont
de sa mise en production, la solution nécessite
la structuration d'un arbre de catégories. Pour
assurer cette fonction, qui n'est pas disponible dans
le produit, la société propose LexiQuest
Mine: un outil d'aide à la construction des plans
de classement. "Le champs sémantique de chaque
partie sera lui-même défini en fonction d'un
ensemble de
textes de référence", précise
Olivier
Jouve, directeur des opérations France et Benelux
de Lexiquest. Après avoir intégré cette
arborescence, LexiQuest Categorize va être capable
de classer les nouvelles entrées de manière
autonome.
Pour ce faire, l'application commence par extraire les
concepts (ou expressions) représentatifs des fichiers
intégrés, en s'appuyant
sur des ressources linguistiques généralistes
(grammaires et autres dictionnaires de base).
Puis, elle utilise un algorithme spécifique afin
de repérer la catégorie dont le référentiel
de concepts est le plus proche. Au final, un modèle probabiliste
vient pondérer les résultats par le calcul
de taux de réussite. "Le tout s'effectue automatiquement
à un rythme potentiel de 500 000 pages à
l'heure", précise Olivier
Jouve. En fin de chaîne,
un module assure un contrôle de pertinence -et met
un document en attente le cas échéant.
Capable
de prendre en charge les formats de fichiers bureautiques
les plus couramment utilisés (Office, PDF, etc.),
LexiQuest
Categorize peut restreindre
son analyse textuel à certaines balises HTML ou
XML.
Un
SDK pour l'intégration à l'existant
Le SDK permet
d'intégrer potentiellement n'importe quel système
d'entreprise (Oracle, Notes, Broadvision, etc.) et/ou
interfaces clientes (Web, etc.). Des agents donnent la
possibilité de récupérer des informations
stockées sur des sites Web distants. "Les
droits d'utilisation seront gérés directement
par l'environnement dans lequel l'application est
intégrée", pointe Olivier
Jouve. Une fonction
qui pourrait permettre par exemple de proposer des arborescences
par département associées à des accès
limités en fonction de profils particuliers.
Disponible en C ou en Java, le kit, qui fournit cinq fonctions
principales et jusqu'à 400 fonctions secondaires,
tourne aussi bien sous Windows NT que sous Unix (Solaris).
"Outre les capacités de traitement, il est
tout à fait possible d'appuyer les appels de fonctions
sur une série
de serveurs frontaux en grappe, et de stocker un même
plan de classement sur une seconde série de machines",
commente le responsable.
Fort de cette nouvelle solution, Lexiquest compte adresser
les problématiques de veille, mais aussi de traitement
d'e-mails et de
portails de gestion documentaire. Sur ce dernier point,
l'éditeur propose notamment un module d'analyse
morphologique et textuel spécialisé dans
le traitement des brevets. Affichant un prix d'entrée
de 70 000 euros, LexiQuest Categorize devrait prochainement
inclure un système de conception d'arborescence.
Parmi ses principaux concurrents sur ce segment, les responsables
de Lexiquest citent Insite
et Autonomy.
|