Stanbol : naissance d'un projet Apache de moteur sémantique

Catégorisation automatique, génération de liens vers des données existantes, alimentation de bases de connaissances... Stanbol fournit aux acteurs de la gestion de contenu une couche d'analyse sémantique.

C'est une nouvelle étape pour le projet de moteur sémantique Open Source IKS. Jusqu'ici hébergé sur Google Code, il vient de passer dans le giron de la fondation Apache, sous le nom de Stanbol. Objectif : permettre à cette technologie de prendre son envol, et être adoptée par le plus grand nombre. Soutenu par six éditeurs et sept laboratoires de recherche européens, le projet a été initié en janvier 2009, avec à la clé une enveloppe de 6,5 millions d'euros versés par la Commission Européenne.

Le rôle de Stanbol ? Analyser syntaxiquement un texte pour en extraire les entités nommés : les noms de personnes, d'entreprises, de produits, de lieux, les dates... Puis mettre en correspondance ces termes avec une base d'entités nommées connues (une base de produits, de clients...). "L'idée est d'apporter aux éditeurs d'outils de gestion de contenu Web ou de gestion documentaire un outil de catégorisation ou de structuration automatique de données", commente Stéphane Fermigier, fondateur de Nuxeo qui fait partie des sociétés à l'origine du projet aux côtés de Midgard, OpenCMS, ou encore Day Software.

Stanbol s'articule autour d'un serveur Java doté d'une interface en REST (pour Representational State Transfer) permettant d'accueillir des flux de données en provenance d'applications développées dans des langages tiers, pour peu qu'elles supportent ce protocole HTTP. L'API permet d'injecter le texte à analyser dans le serveur qui contient plusieurs brique : un moteur d'enrichissement pour catégoriser des textes en se basant sur un historique de documents déjà tagués, une base de connaissances alimentées au fil des analyses, et un moteur de raisonnement qui s'apparente à une couche d'intelligence artificielle.

Automatiser la création d'un maillage de liens sur un site, favorable au référencement Google

Autour de ce noyau, des plugins pourront être développés par les éditeurs souhaitant intégrer Stanbol à leur logiciel. "Nous lançons lundi 6 décembre deux extensions Stanbol pour notre plate-forme de gestion de contenu, l'une centrée sur la catégorisation automatique, l'autre sur l'extraction d'entités nommées", confie Stéphane Fermigier chez Nuxeo.

L'éditeur a déjà réalisé plusieurs prototypes autour du serveur Stanbol. "Nous avons notamment travaillé sur l'extraction d'entités nommées de personnes connues, et leur mise en relation avec des contenus issus de corpus de l'AFP", explique Stéphane Fermigier. "Autre exemple, la mise en relation de lieux extraits de texte avec la base géospatiale GeoNames qui nous a permis de faire le lien avec la localisation des lieux sur une carte."

Les applications potentielles de Stanbol sont nombreuses. Sur le terrain des CMS et du référencement Web, le moteur sémantique pourrait permettre par exemple d'automatiser la création d'un maillage de liens au sein d'un site, en se basant sur un corpus d'entités nommés. Mais également d'automatiser certains processus de classement en matière de comptabilité (facture) et de gestion de demandes clients en s'intégrant aux bases de données de l'entreprise.

Mais pour fonctionner efficacement, le moteur se doit de gérer un grand nombre de cas particuliers : les homonymies, les textes évoquant plusieurs personnes de la même famille avec le même nom... "Des problématiques qui ont été en grande partie abordées dans le cadre du projet Scribo [ndlr qui est porté par le pôle de compétitivité System@tic]", note Stéphane Fermigier. Et si le temps de traitement de Stanbol est trop long, du fait du volume de données à analyser ou de l'algorithme utilisé, le moteur est équipé d'un mode asynchrone.