Le Big Data face au défi des données non-structurées

Le rythme des échanges s’accélère et les méthodes manuelles de gestion et de protection des données sont désormais insuffisantes. Une gouvernance efficace des données nécessite l’utilisation de la puissance des métadonnées grâce à une automatisation intelligente.
Les experts de l’industrie affirment que le même genre d’automatisation est nécessaire pour une bonne gouvernance des données et exploiter la puissance des « Big Data ».
Les entreprises ont en effet besoin d'analyser et de rechercher des modèles déterminants dans le but de gérer efficacement une entreprise guidée désormais par les données : comment et quand ces quantités massives de données sont-elles utilisées ? Par qui ? Dans quel ordre ? Et que contiennent-elles ?
En recherchant sur Internet « l’analyse des Big Data », 3 millions de résultats apparaissent liés à des articles traitant de succès potentiels et actuels dans de nombreux domaines : de l'astrophysique à la santé, des finances à l'ordre public en passant par la vente au détail. Il y a beaucoup d'excitation et un sentiment d'urgence parmi les cadres pour s'assurer que leurs entreprises seront prêtes pour la compétition. Les chefs d’entreprise considèrent que « la prise de décisions guidée par les données » est la contribution technologique qui a la plus grande valeur stratégique pour l’entreprise. [1]
Dans une étude intitulée « Big Data, ce n’est que le début », le Gartner précise que « le challenge important de la gestion de l’information va aggraver les difficultés du partage des informations et alimenter la demande pour une capacité globale de gestion des métadonnées dans les entreprises.[2] »

Qu'est-ce que cela signifie d'exploiter la puissance des « Big Data » ?
L’analyse des « Big Data » a déjà bouleversé des industries entières. Par exemple, les Transactions à Hautes Fréquences (THF) ont complètement changé la dynamique de l'investissement institutionnel. Avec le THF, les transactions sont exécutées en microsecondes basées sur d'énormes quantités d'informations qui sont traitées à quelques secondes de leurs arrivées.
Dans la mesure où 70 % des transactions sont maintenant en THF[3], cela est devenu indispensable pour de nombreuses entreprises. Les THF sont devenues tellement efficaces qu’elles sont sujettes à controverse et les régulateurs étudient d’autres tactiques. D’autre part, il existe un véritable débat sur les conclusions de la SEC et de la CFTC selon lesquelles les THF contribuent à la volatilité survenue au cours du flash crash du 6 mai 2010[4]. Indépendamment de la véracité de ces informations, il serait sage de considérer que l'analyse des « Big Data », si elle est mal exploitée, peut conduire à une avalanche de mauvaises décisions prises très rapidement.

L’analyse des « Big Data » et les données structurées.
Jusqu'à présent, l’analyse des « Big Data » portait surtout sur les sources d’information où il y avait suffisamment de métadonnées à analyser, comme les référentiels de données structurées (les bases de données), où les transactions sont simples à suivre et à analyser. Dans les situations où les métadonnées sont disponibles, le défi est vraiment sur le volume et la technique - comment traiter beaucoup d'informations assez rapidement et efficacement pour analyser les hypothèses de test, répondre aux questions rapidement, détecter les changements, et comprendre les motifs ?
Toutefois, le Gartner souligne, « Les entreprises et les experts se rendent compte qu'il y a une valeur potentielle encore plus grande dans l'évaluation d'autres types de données car certains types existent actuellement dans l'entreprise mais d’autres types de données apparaissent*. De nombreuses entreprises ont stocké des données pendant des années et n'ont jamais tenté de les analyser, tout simplement parce qu’il n’y avait pas de volonté de la part des entreprises.[5] »
Les référentiels de données non structurées n'ont souvent pas beaucoup de métadonnées existantes à analyser. Il n'y a habituellement pas d’enregistrement de l'activité, aucun lien direct avec les créateurs et les propriétaires des données, et pas de catalogue indiquant ce que contiennent toutes ces données. Ironiquement, c'est là où le plus de données (et les plus grandes) résident : de nombreuses études montrent que plus de 80 % des données organisationnelles sont stockées dans des référentiels non structurés.
Big Metadata : instrumenter les données non structurées pour l'analyse des « Big Data.
Alors que l’augmentation du nombre de voitures et d'avions a rendu nécessaire la mise en place de feux de circulation et du contrôle du trafic aérien, l’augmentation du nombre des données et d’échanges rend nécessaire les contrôles automatisés pour être certain que les données soient correctement accessibles et correctement utilisées.

Tableurs, présentations, images, fichiers audio et vidéo, plans, dessins et modèles. Ces données résident le plus souvent sur des serveurs non structurés, avec un partage de fichiers.
Sans contrôle automatisé, les entreprises ont constaté qu'il est impossible d'identifier et de suivre les propriétaires des données ni de procéder à des examens de droit à gérer les autorisations, que ce soit pour vérifier les accès aux données, signaler les abus ou identifier des données périmées. Les contrôles de gouvernance des données automatisées sont désormais comme les feux de circulation dans une grande ville, si vous les éteignez, tout le monde à besoin de conduire très lentement où il y aura des accidents.
Le parallèle se poursuit : le mouvement des automobiles et des avions est suivi et analysé afin que nous puissions conduire nos voitures avec des GPS informés de la circulation, que les forces de l’ordre puissent arrêter les chauffards en regardant les enregistrements des péages automatisés et pour que les aiguilleurs du ciel puissent faire un meilleur usage de l'espace aérien. Les véhicules eux-mêmes sont également plus sophistiqués, offrant toujours plus d'information sur le statut de chaque composant et leur état afin d'accroître la sécurité et l'efficacité.
Dans une autre étude intitulée « Une stratégie basée sur des modèles : mise en valeur des Big Data », le Gartner commente : « Les chefs d'entreprise accordent une grande importance à la technologie pour fournir des données significatives pour l'organisation, afin qu'ils puissent prendre de meilleures décisions basées sur des faits plutôt que des hypothèses[6]. »
Tout comme la technologie d’encadrement des métadonnées, il est désormais nécessaire pour les entreprises de gérer et protéger les données non structurées résidant dans des référentiels semi structurés. Les entreprises s’aperçoivent que sans analyse des métadonnées, il est impossible d'obtenir le maximum de leurs données, de comprendre leur valeur, d’identifier l’ensemble des données, de les mettre en lien avec les utilisateurs, les projets, et les propriétaires, de comprendre comment et quand ils utilisent leurs données, où elles doivent être stockées, et comment ils peuvent les utiliser pour collaborer plus efficacement.
Les mêmes métadonnées intelligentes et techniques de collecte de l’information seront utilisées pour améliorer les processus opérationnels ainsi que de nombreux vecteurs, permettant d’optimiser les flux et de relier les équipes disparates.

[1] Gartner, Pattern-Based Strategy: Getting Value From Big Data, par Yvonne Genovese, Stephen Prentice

[2] Gartner, Big Data is Only the Beginning, par Mark A. Beyer, Anne Lapkin, Nicholas Gall, Donald Feinberg, Valentin T. Sribar

[3] http://www.dailyfinance.com/2010/10/12/what-you-shouldnt-buy-in-the-investment-market-the-pundits-ad/

[4] http://online.wsj.com/article/SB10001424052748704029304575526390131916792.html

[5] Gartner, Pattern-Based Strategy: Getting Value From Big Data, par Yvonne Genovese, Stephen Prentice

[6] Gartner, Pattern-Based Strategy: Getting Value From Big Data, par Yvonne Genovese, Stephen Prentice

Le Big Data face au défi des données non-structurées

Guides

Repères