BOURSE

Journal du Net > Solutions > Mondeca met le Web sémantique au service de l'organisation des connaissances

Article

19/11/01

Mondeca met le Web sémantique au service de l'organisation des connaissances

Certains éditeurs appuient leur solution de catégorisation sur l'analyse des contenus non-structurés. C'est le cas par exemple de Lexiquest (avec LexiQuest Categorize) et de Verity (avec Verity K2 Entreprise), qui utilisent tous les deux des techniques d'indexation et de filtres linguistiques afin d'effectuer des classifications automatiques de documents au sein d'arborescences pré-définies. A la différence de cette tendance, d'autres fournisseurs choisissent d'adjoindre aux données sources une couche de description sémantique en vue d'en décrire l'organisation. Aux côtés du finlandais Profium (voir notre article sur le sujet), le français Mondeca se positionne résolument dans ce second groupe avec un outil de gestion de contenu documentaire basé sur XML.

Fondé en 1999, Mondeca est aujourd'hui présent en France et aux Etats-Unis. Fort d'un département de recherche et développement de 12 personnes, l'éditeur travaille en lien avec divers laboratoires -notamment au sein du CNRS. Très engagé dans la conception des standards, il participe aux activités de normalisation d'OASIS autour du Web sémantique et se présente comme l'un des fondateurs du format de description Topic Maps.

Le couple RDF/Topic Maps
Baptisée Knowledge Index Manager (KIM), le cur de la solution repose sur une batterie de standards de structuration de contenu. "A un premier niveau, un système de classification décrit l'ossature du modèle d'organisation des données", précise David Giblas, directeur général de Mondeca. "C'est ici qu'intervient Topic Maps (TM)." Jouant le rôle d'un descripteur de taxinomie, ce langage décompose les métiers de l'entreprise en familles et sous-familles. Des liens de nature sémantiques (ou ontologiques) pourront être paramétrés parallèlement par le biais de formats tiers, tels que DAML (DARPA Agent Markup Language) ou OIL (Ontology Inference Layer).

A un second niveau, RDF (Resource Description Framework) entre en jeu pour associer aux documents une première toile de meta-données, qu'elles soient externes

(titre, auteur, etc.) ou internes au fichier correspondant. Dans le souci d'affiner cette fonction de maillage, TM se charge pour finir d'organiser le contenu même des textes en déclarant puis liant certains concepts qu'ils contiennent. "Il en résulte un ensemble de réseaux sémantiques couvrant l'ensemble d'une base de connaissance", pointe David Giblas. Stocké dans la table d'une base de données, un nom pourra par exemple être associé à un statut (dans une autre table), ainsi qu'à des descriptifs de compétences et de projets disponibles dans différents fichiers (HTML, etc.) fournis par d'autres systèmes.

Une arborescence d'interfaces Web dynamique
Au total, le socle de KIM se résume en un énorme annuaire de mots clés organisés en réseaux sémantiques XML, et renvoyant à des sources -un peu à la manière de l'index d'une encyclopédie. Le tout paramétrable via une interface graphique.

Egalement capable de récupérer des descriptifs tiers, le système stocke ses données XML dans une base (Oracle). "A partir de cet ensemble, des interfaces HTML seront générées dynamiquement par le biais de feuilles de style XSLT", poursuit David Giblas. Une fonction qui permet éventuellement d'adapter le canal de distribution à d'autres types de format (PDA, etc.). Il en résulte une représentation du classement pré-défini sous la forme de pages structurées en arborescences et sous-arborescences, qui intègrent aussi un réseau de liens horizontaux (sémantiques, etc.).

Afin de compléter ce premier mode d'accés client, le produit est livré avec des agents intelligents. Sortes d'automates de parcours de graphes, ceux-ci analysent les réseaux sémantiques de mots clés et de meta-données afin de repérer les liens entre informations. Dans le contexte d'un projet de gestion des ressources humaine, une requête pourra par exemple croiser l'ensemble la liste des individus présents sur une implantation déterminée avec celle des spécialistes d'un domaine bien particulier.

Une architecture basée sur Java
Tournant sous UNIX, Linux ou Windows NT, la solution de Mondeca, qui a été développée en Java dans le respect des

spécifications J2EE (Java 2 Enterprise Edition), s'appuie aussi bien sur les serveurs d'applications de BEA que d'IBM. Alors que les réseaux sémantiques seront stockés dans une base Oracle, les contenus eux-même pourront reposer dans n'importe quel type de base (Access, etc.) Disponible depuis mai dernier, KIM est disponible sous forme d'une application packagée installable en quelques jours dont les flux XML d'entrée et de sortie sont paramétrables à loisir. Pour adresser les problématiques d'intégration complexes, une édition est livrée avec un environnement de développement (SDK) et plus de 60 interfaces de programmation (API) -prenant en charge les messages au format SOAP (Simple object access protocol) y compris.

Avec EDF ou encore l'Université de San Diego parmi ses premiers clients, Mondeca poursuit la commercialisation de son offre par le biais de partenaires distributeurs - dont Alpha CSP et IFATEC (Euriware) en France. En phase de lancement, la société préfère pour l'heure rester discrète sur ces tarifs.

Rédaction JDN & JDN Solutions

JDN Solutions

Mondeca met le Web sémantique au service de l'organisation des connaissances

Newsletters

Toutes nos newsletters