La catégorisation automatique
selon Altavista Par le JDNet Solutions (Benchmark Group) URL : http://www.journaldunet.com/solutions/0203/020304_altavista.shtml Lundi 4 mars 2002
|
|
A lire
aussi : Google met sa technologie de recherche à la portée des intranets Le célèbre moteur de recherche Web Altavista vient tout juste de dévoiler la version 2.0 de son outil de catégorisation. Ciblant les projets d'intranets documentaires, ce produit (baptisé Altavista Enterprise
Un système de catégorisation en mode indexé Altavista Enterprise Search dispose d'un assistant d'élaboration de plans de classement. Après avoir été définis par l'entreprise en fonction de ses thématiques de spécialisation, les différents éléments de cette taxonomie sont utilisés ensuite par le système d'analyse sous-jacent pour générer automatiquement un mode de catégorisation des contenus -ici ce sont les noms des catégories qui seront utilisés (à la manière de requêtes de recherche) en vue d'effectuer les tris. Pour assurer ce traitement, les contenus sont préalablement filtrés par un module d'indexation intégrant des mécanismes de traitement linguistique. Capable de prendre en charge une trentaine de langues différentes, ce module supporte près de 230 formats de fichiers (HTML, PDF, etc.), sans compter les données structurées -au sein d'une base données relationnelles. Quant à la reprise de contenu distant, elle est assurée par un agent de collecte visant aussi bien les serveur Web que les systèmes de fichiers. Une gestion des droits d'accès améliorée Tournant notamment sous Windows, Linux et Unix (dont Solaris), Altavista Enterprise Search est livré avec un kit de développement conçu pour faciliter la mise en oeuvre de fonctions supplémentaires. Pour assurer son intégration à divers systèmes de gestion de contenu tiers, celui-ci s'accompagne d'une bibliothèque d'interfaces de programmation d'applications (API) couvrant divers langages de programmation (C, Java, COM, et Perl). Au final, les fonctions de recherche et de catégorisation sont affichées au sein de pages Web par le biais du langage de scripts ASP (Active Server Page) ou JSP (Java Server Page). Au chapitre des nouveautés de sa version 2.0, la solution d'Altavista ne limite plus la gestion des droits d'accès au système d'indexation et de catégorisation, mais permet désormais de définir une politique d'autorisation relative aux documents en tant que tels. Une fonction qui s'appuie notamment sur les annuaires de gestion de profils existants et autres applications de sécurité d'entreprise. A lire aussi : Google met sa technologie de recherche à la portée des intranets [Antoine Crochet Damais, JDNet] |