Gouvernance des données : peut-on s'inspirer du modèle collaboratif de Wikipédia ?

Les formes de gouvernance des données ont évolué au fil du temps, et les dirigeants doivent maintenant trouver, pour leur entreprise, la meilleure approche parmi les différents modèles qui existent.

Dans l'économie de l'information, où les données sont devenues le principal actif de chaque entreprise, les stratégies fondées sur les données sont désormais un impératif concurrentiel pour réussir dans tous les secteurs d’activités afin d’aider à la prise de décision, que ce soit pour les objectifs commerciaux, la performance financière, ou la satisfaction client. Dans cette ère, la gouvernance des données est essentielle. Les formes de gouvernance ont évolué au fil du temps, et les dirigeants doivent maintenant trouver, pour leur entreprise, la meilleure approche parmi les différents modèles qui existent.

Le modèle centralisé

Dans le passé, les entreprises ont mis en place des approches très centralisées pour créer des centres de données (data hub). Cette approche s’appuyait sur une petite équipe de professionnels des données très expérimentés, armés de méthodologies définies. Pour appliquer cette approche à un entrepôt de données d’entreprise (data warehouse), par exemple, il faut commencer par définir un modèle de données central pour collecter et réconcilier les données qui ont été définies comme pertinentes. Ensuite, celles-ci sont remodelées dans des sous-ensembles (data marts), pour correspondre à un domaine ou à un problème métier, puis remodelées à nouveau à l'aide d'un outil de business intelligence. Cela fournit une couche sémantique, tel un catalogue de données (data catalog), destinée à être intégrée dans des rapports prédéfinis. Ce n'est qu'à partir de ce moment-là que les données peuvent être utilisées pour l'analyse.

Le problème de ce modèle centralisé réside dans le manque de ressources disponibles pour mettre à disposition ces données à tous ceux qui en ont besoin, de façon rapide et précise. L’autre difficulté est de répondre à la demande croissante de nouveaux types de données de la part des utilisateurs métiers.

Le modèle « réseaux sociaux »

Avec l’avènement du big data a émergé une approche beaucoup plus agile de la gestion des données : le lac de donnée ou « data lake ». Si le premier modèle consiste à commencer par la modélisation et la gouvernance des données, puis à explorer les données réelles avec une approche descendante, les data lake adoptent l’approche exactement inverse. Un data lake s’appuie sur des données brutes, qui peuvent être ingérées avec des coûts de mise en œuvre initiaux minimes, généralement sur des systèmes de fichiers basiques. Ainsi, il n’est pas nécessaire de connaitre le contenu des données, car il sera possible ensuite de créer une structure par-dessus ces données. Il est ensuite possible d’ajouter des contrôles de qualité des données, des règles de sécurité,, des filtres, etc.

Ce modèle plus agile peut gérer un plus grand volume de sources de données et de cas d’utilisation. Il s’adapte également à tous les publics, même si seules les personnes les plus expérimentées peuvent accéder aux données brutes. Il présente de multiples avantages par rapport au précédent, en cela qu’il s’adapte aux sources de données, aux cas d’utilisation et aux utilisateurs. Les données brutes peuvent être ingérées au fur et à mesure, et les modifications sont plus simples à mettre en œuvre. Néanmoins, il nécessite des mesures plus strictes de gouvernance et de contrôle de la qualité des données. Comme la gouvernance des données n’y est pas intégrée, elle est ajoutée après coup, à mesure que les entreprises s’étendent à de nouveaux utilisateurs et à de nouveaux cas d’utilisation.

Le modèle « Wikipédia »

Il manque au data lake la possibilité de prendre le contrôle des données au moment où elles entrent dans les systèmes de l’entreprise, plutôt qu’après coup. Par ailleurs, les sources de données entrantes, introduites par différentes personnes d’une même organisation, se multiplient.
La solution intermédiaire consiste donc à adopter, dès le départ, une approche collaborative de la gouvernance des données. Ainsi, les utilisateurs les plus compétents de l’entreprise peuvent devenir des fournisseurs et des curateurs de contenu. Travailler avec les données en équipe dès la phase initiale est essentiel avec cette approche, au risque de voir la quantité de travail nécessaire pour valider la fiabilité des données devenir trop chronophage. 
Les organisations peuvent adopter une approche semblable à celle de Wikipédia, où tout le monde peut collaborer à la curation des données, à condition de respecter des principes bien définis. Cette stratégie engage l'ensemble de l'entreprise à contribuer au processus de transformation des données brutes en un actif fiable, documenté et prêt à être partagé.

Les entreprises peuvent mettre en place un système de confiance et évolutif en exploitant des outils de self-service intelligents et orienté vers le flux de travail, avec des contrôles de qualité des données intégrés.

Certains processus fortement réglementés, tels que l'agrégation des données sur les risques dans les services financiers, et certaines données spécifiques, comme les informations sur les cartes de crédit des consommateurs, nécessitent une attention toute particulière. Dans ces cas, une approche ascendante ne sera pas suffisante, mais le modèle « Wikipédia » peut venir compléter - plutôt que remplacer complètement - une approche descendante, créant ainsi un modèle hybride. Bien que la technologie puisse aider à mettre en œuvre une approche collaborative de la gouvernance des données, les entreprises doivent avoir la discipline nécessaire pour organiser leurs données à un rythme soutenu.

Il est impossible de réussir dans l'ère numérique actuelle sans choisir un cadre. La gouvernance des données peut faire ou défaire la transformation digitale des entreprises. Même si définir le modèle de gouvernance des données à appliquer est une responsabilité qui revient aux dirigeants, le succès de sa mise en œuvre se doit d’être un sport d’équipe qui incombe une collaboration au sein de l’ensemble des organisations.