7 mythes réfutés sur la gestion de la qualité des données

Si la gestion de la qualité des données a fortement évolué ces dernières années, elle demeure exposée à de nombreux mythes pouvant être un obstacle à son optimisation.

Voici 7 mythes communs réfutés :

Mythe n°1 : Les utilisateurs métier sont responsables de la qualité de leurs données. La gestion de la qualité des données doit, au contraire, s’inscrire dans un effort collectif de l’informatique et des utilisateurs métier. Les utilisateurs métier auront, d’une part, la responsabilité de définir les règles, les indicateurs et les niveaux d’acceptation de la qualité de données, et le département informatique fournira, d’autre part, le cadre architectural nécessaire au respect des règles et au suivi des indicateurs.
Dans ce contexte, l’entreprise pourra mettre en place des règles et des procédures de gouvernance de données, pour s’assurer de communiquer les problèmes aux utilisateurs et leur prise en charge par les responsables des données du service informatique.

Mythe n°2 : Les outils de gestion de qualité de données n’ont pas besoin de paramétrage. La gestion de la qualité de données va bien au-delà de l’acquisition d’un outil, celui-ci ne garantissant pas la détection et la correction instantanées des erreurs.
Si l’outil doit être configuré avec des métadonnées, des déclarations et des règles, conformément aux attentes des utilisateurs métier, il sera plus efficace entre les mains de ceux ayant une connaissance approfondie des données, du contexte et de la technologie. L’entreprise pourra alors mettre en place un programme associant les bonnes pratiques liées à la gestion des données, au data stewardship et à l’utilisation des outils.

Mythe n°3 : Les méthodes de qualité de l’industrie s’appliquent aisément aux données. Il ne fait aucun doute que certains aspects des processus de qualité utilisés dans le secteur industriel peuvent être appliqués à la gestion des données d’entreprise. Prenons l’analogie suivante : les données sont la matière première et l’information constitue le produit fini.
Contrairement aux matières premières, les données peuvent être utilisées de nombreuses fois. Et contrairement aux produits manufacturés, l’information peut être réutilisée et transformée de telle manière que le propriétaire de l’information d’origine n’aurait jamais imaginé et encore moins prévu. Pour tenter de suivre le respect des spécifications, il faut les connaître à l’avance, ce qui est rarement le cas pour les données.

Ce point peut déboucher sur deux conclusions:
* Premièrement, s’il existe un moyen d’anticiper comment les données seront réutilisées, les responsables des données sources pourront réaliser un test au cours du cycle de vie du développement pour anticiper les types de défauts susceptibles de provoquer des problèmes en aval, et les limiter ou les éliminer dès le départ.
* Deuxièmement, ces ensembles de données réutilisés ne devraient avoir aucune influence sur l’insertion de contrôles de qualité. Dans les deux cas, les consommateurs de données doivent veiller à l’adéquation de celles-ci avec leurs besoins, ce qui pourrait exiger l’utilisation directe d’outils et de techniques de qualité de données.

Mythe n°4 : Les données doivent être parfaites. Le perfectionnisme peut avoir un coût excessif lorsque les efforts pour atteindre un niveau supérieur de qualité des données sont démesurés par rapport à l’avantage d’une qualité parfaite sur une qualité suffisante. En effet, avec des ressources limitées, il est préférable de concentrer ses efforts sur les problèmes prioritaires.
Le fait de comprendre qui sont les consommateurs de données et de connaître leurs attentes en matière de qualité vous permet d’anticiper plus efficacement les problèmes de processus susceptibles d'introduire des erreurs. La loi des rendements décroissants exige de la part de l’équipe responsable de la qualité de données qu’elle affecte les ressources de façon intelligente pour que l’organisation obtienne le meilleur retour sur investissement, avec le maximum de valeur et d'efficacité.

Mythe n°5 : Le coût des données de mauvaise qualité est évident (En veillant à ce que les données soient parfaites, on augmente automatiquement le chiffre d’affaires et on réduit les coûts). Il ne fait aucun doute que l'existence de données déficientes aura des conséquences négatives sur l’activité. D'une manière générale, le fait de réduire la fréquence et la portée des erreurs limitera les impacts négatifs.
Mais on dispose de bien peu d’informations sur le rapport entre une erreur précise et les coûts correspondants. Il y a donc une différence subtile entre le fait de mettre en place des contrôles pour éviter les conséquences négatives et de revendiquer la valeur de données « parfaites ».

Mythe n°6 : La surveillance et le reporting de la qualité de données éliminent les erreurs. Le fait d’utiliser un tableau de bord de qualité de données pour être averti très tôt des incidents aide l’entreprise à réagir rapidement face aux problèmes détectés. Cependant, être réellement actif signifie anticiper les types d’erreurs susceptibles de se produire et demander aux consommateurs d’évaluer les conséquences potentielles de ces erreurs.
Les équipes de conception et d’implémentation savent alors si des modifications fondamentales des processus peuvent limiter la survenue de ces erreurs. En intégrant cette pratique de gouvernance dans le cycle de vie de développement, on peut utiliser des outils et des technologies pour prévoir les erreurs afin que les développeurs puissent réaliser des solutions et des contrôles pour qu’elles ne se reproduisent pas.

Mythe n°7 : Les problèmes de qualité de données ne peuvent être résolus qu’en améliorant les processus. Certaines méthodologies d’amélioration de la qualité des données ne visent que l’amélioration des processus, insistant sur le fait que les fournisseurs valident toujours leurs données avant de les fournir aux consommateurs. Souvent, ceci suggère que les approches techniques ne sont pas nécessaires pour améliorer la qualité des données.
Ces approches ne tiennent pas compte du fait que les utilisateurs réutilisent des ensembles de données sans en contrôler la création, et que les membres d’un environnement collaboratif doivent accepter des normes pour partager des données. Pour garantir la fourniture de données utilisables, ces situations demandent une combinaison d’outils et de techniques de qualité des données et d’amélioration des processus.

La stratégie de qualité de données. Pour améliorer la qualité de données, il faut associer une planification soigneuse à une gestion efficace des ressources.
La responsabilité ne peut être attribuée sans réflexion préalable à l’informatique ou aux métiers : il faut tenir compte des deux perspectives pour établir les contrôles et les procédures nécessaires à la création d’ensembles de données adaptés aux besoins collectifs des consommateurs.

De même, la qualité des données ne peut être améliorée en se contentant d’appliquer une technologie ou de mettre en œuvre les améliorations de processus dictées par « le lobby de la qualité ». Il faut un effort collectif, apportant aux experts des processus métier, les outils techniques appropriés pour prendre des décisions efficaces sur l’identification et l’anticipation des types d’erreurs de données pouvant avoir un impact négatif.
Des outils de profilage et de mapping des données peuvent contribuer à évaluer différents types d’erreurs et soutenir une surveillance continue pour générer des alertes lorsqu’il faut gérer des erreurs échappant au contrôle de l’entreprise. Des outils courants de qualité de données comme l’analyse syntaxique, la normalisation, la mise en correspondance et la résolution des identités peuvent servir à nettoyer les erreurs et à normaliser les données lorsque la cause des erreurs est hors du contrôle de l’organisation.
Celle-ci peut configurer des tableaux de bord et des scorecards pour surveiller les performances et l’efficacité des responsables des données et des analystes de la qualité de données, et comprendre comment appliquer les meilleures pratiques dans ce domaine.

En adoptant ces conseils, l’entreprise peut mettre en place une stratégie efficace et planifier des améliorations de la qualité de données, à court, moyen et long terme.
L’intégration de méthodes pour tirer parti de la collaboration entre les responsables de la mise en œuvre technique et les consommateurs des données métier l’aidera à identifier activement les dépendances au sein de la qualité de données, à anticiper les problèmes, et à mettre au point des contrôles de la structure applicative afin d’éviter les erreurs.