Structurer la data non structurée pour devenir Information driven
Le volume de données d'entreprise ayant augmenté de façon exponentielle, le concept de données structurées et non structurées est désormais au centre des préoccupations des services IT.
Les données structurées se trouvaient généralement à l'intérieur de bases de données, d'ERP, de CRM, de PLM, de systèmes d'annuaire et d'autres outils de gestion de contenu composés des données sur les personnes, des transactions financières, des ensembles de données d'essais cliniques, etc. D'autre part, la quantité de texte que l'on trouve dans les brevets, les articles scientifiques, les sites web, les livrables de projet et les contrats a conduit les gestionnaires de connaissances à les qualifier de données non structurées.
Et que dire des deux zones grises qui se trouvent entre les deux :
Il arrive que les documents constitués d'un contenu volumineux et non structuré soient gérés dans des systèmes de gestion de contenu pour mieux les organiser à l'aide de catégories, de métadonnées et de propriétés. Ces types de documents ont donné naissance au terme de données "semi-structurées".
D’un autre côté, le contenu court comprend plusieurs parties de texte hébergées dans des réseaux sociaux, des systèmes de messagerie instantanée, voire plusieurs colonnes dans des tables de base de données. Doivent-elles être considérées comme des données structurées ? Des données non structurées ? Semi-structurées ? Aucune de ces catégories ? Les deux ?
Essayons donc de comprendre comment cette tentative de classification a eu lieu et pourquoi une nouvelle approche devrait être adoptée pour toutes les gérer.
Pourquoi existe-t-il deux grandes catégories de données et comment les gérer ?
La principale raison pour laquelle il existe deux catégories de données est la nécessité de mieux spécifier les systèmes logiciels qui les géreront le mieux. En commençant par Excel et les bases de données en général, de nombreux produits ont été développés pour gérer correctement les données structurées. Dans le même temps, les systèmes de gestion de contenus, à commencer par les lecteurs partagés, ont été développés pour mieux accueillir les documents Word, PDF et autres documents textuels (alias documents non structurés). Et pour cause, la liste des systèmes de gestion de documents structurés/non structurés étant extrêmement longue, en fonction de l'objectif et des attentes de l'entreprise. Tous présentent une grande variété de fonctionnalités, de capacités, de forces et de faiblesses.
Les données non structurées représentent le défi le plus important
Alors que le contenu d'une base de données est formaté simplement à l'intérieur des cellules d'un tableau, selon un schéma plus ou moins strict, les documents non structurés peuvent comprendre des centaines de formats binaires écrits dans de nombreuses langues maternelles.
La gestion du contenu des bases de données est simple une fois que sont identifiées les informations contenues dans la base de données. Les dates sont correctement stockées dans des formats de date, les noms des personnes sont clairement écrits dans les champs appropriés et les montants d'argent, les noms de catégories, les valeurs quantitatives, etc. sont tous stockés dans les formats adéquats.
Si nous considérons maintenant un document en texte brut écrit, par exemple en allemand, en russe ou en japonais, comment pouvons-nous identifier les mêmes types d'entités nommées (par exemple, des dates, des noms de personnes, des valeurs quantitatives, etc.) ?
La plupart du temps, les moteurs de recherche de base permettent d'effectuer une recherche en texte intégral, mais il faut savoir ce que l’on cherche. Plus important encore, il est nécessaire de lire attentivement le résultat pour récupérer l'information précise qui se trouve à l'intérieur d'une phrase sur une page donnée du document, même lorsque le document le plus pertinent est trouvé. Ce défi complexe est la raison principale pour laquelle le contenu non structuré est très souvent sous-utilisé dans de nombreuses entreprises et pourquoi beaucoup d'entre elles affirment que leur stratégie "data driven" est encore loin de devenir "information driven".
Les apports du moteur de recherche avancé
Grâce à une connectivité étendue, les moteurs de recherche permettent d'indexer les documents structurés et non structurés afin de fournir un accès à des informations véritablement unifiées basées sur l'ensemble des données de l’organisation, quel que soit le système de gestion des documents. Comme il est possible de travailler avec n'importe quel document, le texte devient facilement accessible et n'importe quel utilisateur peut effectuer des recherches étendues sur n'importe quel élément d'information, quel que soit son format binaire. Grâce aux technologies intégrées de compréhension du langage naturel, il ne faut plus craindre les documents et les données rédigés dans plusieurs langues. Les capacités intégrées d'exploration de texte permettent d'identifier les entités nommées, de sorte que les données telles que les noms de personnes, les montants, les lieux et les noms de sociétés peuvent être facilement identifiées et mises en évidence pour tout post-traitement qualitatif et quantitatif. Grâce au machine learning, les documents peuvent ainsi être automatiquement organisés en catégories et l'intention de l'utilisateur peut être détectée et corrélée au moment de la recherche afin de maximiser la satisfaction de l'utilisateur.
La capacité de traiter des données à la fois structurées et non structurées permet d'aller au-delà d'une simple recherche fédérée sur plusieurs sources de données. Une entreprise disposant d'un répertoire des employés, d'un système de gestion de la relation client (CRM) pour gérer les données de ses clients, d'un progiciel de gestion intégré (ERP) et de plusieurs applications commerciales pour décrire précisément les produits, les fournisseurs, les usines de fabrication, etc. est probablement l’exemple le plus courant et le plus significatif.
Ainsi l’intérêt d’une plateforme est d’affiner et d’enrichir le vocabulaire métier pour améliorer les capacités d'exploration de texte et les fonctionnalités de recherche afin de fournir une recherche d'entreprise de premier ordre.
En utilisant les données structurées propriétaires pour mieux exploiter les données non structurées, l'approche de la plateforme de recherche d'entreprise ne permet pas seulement, à l’ensemble des collaborateurs, d'effectuer des recherches dans toutes les données de l'entreprise. En outre, elle améliorera sa capacité à structurer les données non structurées, en aidant les utilisateurs à faire apparaître tous les faits, entités et relations pertinents auparavant cachés dans les millions de documents non structurés. Et c'est ce qu'il faut pour devenir véritablement data-driven.