Le Big Data face au défi des données non-structurées
Le rythme des échanges s’accélère et les méthodes manuelles de gestion et de protection des données sont désormais insuffisantes. Une gouvernance efficace des données nécessite l’utilisation de la puissance des métadonnées grâce à une automatisation intelligente.
Le
rythme des échanges s’accélère et les méthodes manuelles de gestion et de
protection des données sont désormais insuffisantes. Une gouvernance efficace
des données nécessite l’utilisation de la puissance des métadonnées grâce à une
automatisation intelligente.
Les
experts de l’industrie affirment que le même genre d’automatisation est
nécessaire pour une bonne gouvernance des données et exploiter la puissance des
« Big Data ».
Les entreprises ont en effet besoin d'analyser et de
rechercher des modèles déterminants dans le but de gérer efficacement une entreprise
guidée désormais par les données : comment et quand ces quantités massives de
données sont-elles utilisées ? Par qui ? Dans quel ordre ? Et que contiennent-elles ?
En recherchant
sur Internet « l’analyse des Big Data », 3 millions de résultats apparaissent
liés à des articles traitant de succès potentiels et actuels dans de nombreux
domaines : de l'astrophysique à la santé, des finances à l'ordre public en
passant par la vente au détail. Il y a beaucoup d'excitation et un sentiment
d'urgence parmi les cadres pour s'assurer que leurs entreprises seront prêtes
pour la compétition. Les chefs d’entreprise considèrent que « la prise de
décisions guidée par les données » est la contribution technologique qui a
la plus grande valeur stratégique pour l’entreprise. [1]
Dans
une étude intitulée « Big Data, ce n’est que le début », le Gartner précise
que « le challenge important de la
gestion de l’information va aggraver les difficultés du partage des
informations et alimenter la demande pour une capacité globale de gestion des
métadonnées dans les entreprises.[2] »
Qu'est-ce que cela signifie d'exploiter la puissance
des « Big Data » ?
L’analyse
des « Big Data » a déjà bouleversé des industries entières. Par
exemple, les Transactions à Hautes Fréquences (THF) ont complètement changé la
dynamique de l'investissement institutionnel. Avec le THF, les transactions
sont exécutées en microsecondes basées sur d'énormes quantités d'informations
qui sont traitées à quelques secondes de leurs arrivées.
Dans
la mesure où 70 % des transactions sont maintenant en THF[3], cela est
devenu indispensable pour de nombreuses entreprises. Les THF sont devenues
tellement efficaces qu’elles sont sujettes à controverse et les régulateurs
étudient d’autres tactiques. D’autre part, il existe un véritable débat sur les
conclusions de la SEC et de la CFTC selon lesquelles les THF contribuent à la
volatilité survenue au cours du flash
crash du 6 mai 2010[4].
Indépendamment de la véracité de ces informations, il serait sage de considérer
que l'analyse des « Big Data », si elle est mal exploitée, peut
conduire à une avalanche de mauvaises décisions prises très rapidement.
L’analyse des « Big Data » et les données
structurées.
Jusqu'à
présent, l’analyse des « Big Data » portait surtout sur les sources
d’information où il y avait suffisamment de métadonnées à analyser, comme les
référentiels de données structurées (les bases de données), où les transactions
sont simples à suivre et à analyser. Dans les situations où les métadonnées
sont disponibles, le défi est vraiment sur le volume et la technique -
comment traiter beaucoup d'informations assez rapidement et efficacement pour
analyser les hypothèses de test, répondre aux questions rapidement, détecter
les changements, et comprendre les motifs ?
Toutefois,
le Gartner souligne, « Les
entreprises et les experts se rendent compte qu'il y a une valeur potentielle
encore plus grande dans l'évaluation d'autres types de données car certains types
existent actuellement dans l'entreprise mais d’autres types de données
apparaissent*. De nombreuses entreprises ont stocké des données pendant des
années et n'ont jamais tenté de les analyser, tout simplement parce qu’il n’y
avait pas de volonté de la part des entreprises.[5] »
Les
référentiels de données non structurées n'ont souvent pas beaucoup de
métadonnées existantes à analyser. Il n'y a habituellement pas d’enregistrement
de l'activité, aucun lien direct avec les créateurs et les propriétaires des
données, et pas de catalogue indiquant ce que contiennent toutes ces données.
Ironiquement, c'est là où le plus de données (et les plus grandes) résident :
de nombreuses études montrent que plus de 80 % des données organisationnelles
sont stockées dans des référentiels non structurés.
Big Metadata : instrumenter les données non
structurées pour l'analyse des « Big Data.
Alors
que l’augmentation du nombre de voitures et d'avions a rendu nécessaire la mise
en place de feux de circulation et du contrôle du trafic aérien, l’augmentation
du nombre des données et d’échanges rend nécessaire les contrôles automatisés
pour être certain que les données soient correctement accessibles et
correctement utilisées.
Tableurs, présentations, images,
fichiers audio et vidéo, plans, dessins et modèles. Ces données résident le
plus souvent sur des serveurs non structurés, avec un partage de fichiers.
Sans
contrôle automatisé, les entreprises ont constaté qu'il est impossible
d'identifier et de suivre les propriétaires des données ni de procéder à des
examens de droit à gérer les autorisations, que ce soit pour vérifier les accès
aux données, signaler les abus ou identifier des données périmées. Les
contrôles de gouvernance des données automatisées sont désormais comme les feux
de circulation dans une grande ville, si vous les éteignez, tout le monde à
besoin de conduire très lentement où il y aura des accidents.
Le
parallèle se poursuit : le mouvement des automobiles et des avions est suivi et
analysé afin que nous puissions conduire nos voitures avec des GPS informés de
la circulation, que les forces de l’ordre puissent arrêter les chauffards en regardant
les enregistrements des péages automatisés et pour que les aiguilleurs du ciel puissent
faire un meilleur usage de l'espace aérien. Les véhicules eux-mêmes sont également
plus sophistiqués, offrant toujours plus d'information sur le statut de chaque
composant et leur état afin d'accroître la sécurité et l'efficacité.
Dans
une autre étude intitulée « Une stratégie basée sur des modèles : mise
en valeur des Big Data », le Gartner
commente : « Les chefs
d'entreprise accordent une grande importance à la technologie pour fournir des
données significatives pour l'organisation, afin qu'ils puissent prendre de
meilleures décisions basées sur des faits plutôt que des hypothèses[6]. »
Tout
comme la technologie d’encadrement des métadonnées, il est désormais nécessaire
pour les entreprises de gérer et protéger les données non structurées résidant
dans des référentiels semi structurés. Les entreprises s’aperçoivent que sans
analyse des métadonnées, il est impossible d'obtenir le maximum de leurs
données, de comprendre leur valeur, d’identifier l’ensemble des données, de les
mettre en lien avec les utilisateurs, les projets, et les propriétaires, de
comprendre comment et quand ils utilisent leurs données, où elles doivent être
stockées, et comment ils peuvent les utiliser pour collaborer plus
efficacement.
Les
mêmes métadonnées intelligentes et techniques de collecte de l’information
seront utilisées pour améliorer les processus opérationnels ainsi que de
nombreux vecteurs, permettant d’optimiser les flux et de relier les équipes
disparates.
[1] Gartner, Pattern-Based Strategy: Getting Value From Big Data, par Yvonne Genovese, Stephen Prentice
[2] Gartner, Big Data is Only the Beginning, par Mark A. Beyer, Anne Lapkin, Nicholas Gall, Donald Feinberg, Valentin T. Sribar
[5] Gartner, Pattern-Based Strategy: Getting Value From Big Data, par Yvonne Genovese, Stephen Prentice
[6] Gartner, Pattern-Based Strategy: Getting Value From Big Data, par Yvonne Genovese, Stephen Prentice