Comment l'IA dope la gestion de contenu d'entreprise

Les plateformes d'ECM intègrent massivement l'intelligence d'artificielle. De la qualification d'informations à la détection des erreurs de saisie en passant par le traitement automatique des dossiers client, les cas d'usage sont multiples.

Un des freins généralement avancé au développement des plateformes de gestion de contenu d'entreprise, ou d'entreprise content management (ECM) en anglais, porte sur l'investissement en temps qu'elles nécessitent. Extraire des informations des champs d'un tableur ou tagger un fichier pour en optimiser le référencement sont des activités à la fois chronophages et guère valorisantes. Face à la hausse exponentielle du volume de documents et d'images numérisées, ce travail devenait intenable. C'est là que l'IA entre dans la danse. Elle permet d'automatiser l'extraction des données critiques des contenus pour gérer ces derniers de manière intelligente, leur appliquer des processus automatisés et faciliter les actions de recherche.

Les grands éditeurs d'ECM que sont Alfresco, IBM, M-Files, Nuxeo ou OpenText intègrent désormais tous des services cognitifs, de la reconnaissance d'images et de formes à la traduction automatique ou en passant par le traitement du langage naturel, la reconnaissance vocale, le speech-to-text ou la vision par ordinateur.

Industrialisation des métadonnées

Certains acteurs de l'ECM développent leurs propres services d'IA. D'autres font appel à ceux proposés sur étagère par les hyperscalers américains (AWS, Microsoft Azure et Google Cloud). D'autres encore recourent à des spécialistes comme Hyperscience. Ce dernier utilise le machine learning pour extraire des données au sein de documents complexes et difficiles à lire comme des formulaires manuscrits, des PDF ou des images… Une fois ces données extraites, il est possible de classer les documents ou de leur appliquer un workflow.

Dans l'ECM, les apports de l'IA sont multiples. Dès la phase de qualification des contenus, les modèles de machine learning automatisent le tagging des documents pour faciliter ensuite leur indexation par un moteur de recherche. Ils viennent également enrichir les objets des référentiels documentaires en métadonnées. A défaut, l'IA peut même alerter en cas d'erreur dans la saisie manuelle d'une métadonnée. A ce stade, le cas d'usage le plus courant porte sur l'enrichissement des médias riches (images, photos, sons, vidéos). "Dans le monde de la mode, la photo d'un vêtement sera par exemple rapprochée de la fiche produit associée", illustre Gregory Carlin, tech advocate chez Nuxeo. "L'IA sera aussi capable d'identifier le mannequin qui porte le vêtement et de vérifier si les droits à l'image sont bien respectés."

Client de Nuxeo, AccorHotels utilise la reconnaissance d'images pour identifier les noms d'hôtels figurant sur les photos de sa base documentaire. L'IA visuelle de l'éditeur lui permet de détecter si une photo est en haute résolution ou optimisée pour le web, ou encore de s'assurer de la présence d'un logo. Par ailleurs, l'IA de Nuxeo peut reconnaître le format d'un document et proposer de le convertir dans un autre, par exemple une image JPEG en PDF. Dans le même ordre d'idée, elle est capable d'extraire des informations au sein de sons ou de vidéos, et même d'analyser les émotions qui se dégagent d'un visage sur une image.

Conformité et détection des fraudes

Parmi les cas d'usage qu'il expose dans un guide pratique, Nuxeo met en avant la validation de données. Il s'agit de déterminer par exemple si un formulaire a été correctement rempli avant de le traiter. Ou encore de vérifier, via analyse sémantique, la conformité de certains documents sensibles à la réglementation en vigueur, tels des contrats. "Toujours en vue de répondre aux exigences des textes réglementaires, comme le RGPD, l'IA intervient en outre dans la gestion des archives", ajoute Nuxeo. En identifiant la nature du document, elle appliquera les bonnes durées de conservation.

"Une fois le modèle en production, il faudra le surveiller afin de s'assurer qu'il ne dérive pas ou baisse en performance"

Dans un tout autre registre, l'IA peut servir à détecter des cas de fraudes. En matière de fraude à l'assurance, Nuxeo évoque un assuré envoyant les mêmes photos pour deux sinistres différents. "Quelle est la probabilité qu'un assureur employant des milliers d'experts soit capable de faire le rapprochement surtout si les photos en question ont été envoyées à plusieurs années d'intervalle ?", s'interroge l'éditeur. Au-delà de la détection des fraudes, l'assureur pourra en parallèle capitaliser sur sa base de connaissances pour évaluer les frais de réparation en rapprochant des cas de sinistres similaires.

Pour Gregory Carlin, c'est à l'entreprise de déterminer le seuil de performance en-deçà duquel un humain est appelé à valider ou non la proposition de la machine. Il insiste aussi sur la nécessaire personnalisation de l'IA qui doit être entraînée sur les propres données de l'entreprise. "Une fois le modèle en production, il faut le surveiller afin de s'assurer qu'il ne dérive pas ou baisse en performance. Ce qui suppose de le réentraîner", insiste l'expert.

IBM reconnu performant

Dans son dernier quadrant magique dédié aux content services platforms (CSP), daté de novembre 2020, le Gartner place Alfresco Box, Hyland, Microsoft et OpenText parmi les leaders du secteur et qualifie IBM, M-Files, Newgen, Nuexo et SER Group de visionnaires. Un marché en voie de consolidation puisque l'américain Hyland a racheté, coup sur coup, l'acteur open source Alfresco en septembre 2020 puis la pépite française Nuxeo en mars 2021.

L'intégration des technologies d'IA est un des critères clés pris en compte par le Gartner. Les éditeurs que le cabinet cite dans son étude investissent fortement dans ce domaine afin de rendre "intelligentes" leur plateforme au-delà de la simple gestion des fichiers. Selon le Gartner, IBM obtient les meilleurs résultats grâce à ses capacités d'automatisation, notamment dans le développement low-code d'applications et de processus. De son côté, OpenText s'appuie sur sa plateforme d'IA, baptisée Magellan, pour faire du text mining mais également de la BI et du reporting. Alfresco propose, lui aussi, un module dédié, Alfresco Intelligence Services, qui vient enrichir automatiquement les contenus en s'appuyant sur des services de machine learning d'AWS comme Amazon Transcribe, Amazon Comprehend, Amazon Rekognition et Amazon Textract.

De taille plus modeste, le finlandais M-Files entend profiter de sa levée de fonds de 80 millions de dollars, bouclée en janvier, pour se renforcer dans ce domaine. Selon le Gartner, l'éditeur a déjà intégré l'IA dans son processus d'ingestion de contenu pour suggérer des métadonnées aux utilisateurs ou les générer automatiquement.