Nuxeo / Automated Document Categorization : génération automatique de métadonnées

L'éditeur complète sa plate-forme de gestion de contenu de modules centrés sur la catégorisation automatique de documents, et l'extraction d'entités nommées.

Nous l'avions annoncé (lire l'article du 02/12/2010 : Stanbol : naissance d'un projet Apache de moteur sémantique). Le français Nuxeo travaillait au développement de deux nouveaux modules d'analyse sémantique pour compléter sa plate-forme de gestion de contenu. Ces outils sont désormais disponibles. Ils reposent sur le projet Apache de moteur sémantique Stanbol.


Baptisé Automated Document Categorization, le premier génère les méta-données d'un document après l'avoir analysé. Le second (Semantic Linking) est conçu pour extraire d'un texte des entités nommées (personnes, lieux ou organisations). Pour repérer ces entités, le module fait appel à DBPedia : une base de références en ligne créée à partir d'informations extraites de Wikipedia. "Ce module s'adresse aux agences de presse, aux institutions de l'enseignement, aux sociétés de recherche et à toutes les organisations ayant besoin d'identifier rapidement et de façon pertinente des personnalités, des organisations ou des lieux connus dans un grand volume de texte", explique Nuxeo. 


Télécharger 
Automated Document Categorization et Semantic Linking sur la place de marché de Nuxeo

 

 

Gestion de contenu / Apache