7 mythes réfutés sur la gestion de la qualité des données
Si la gestion de la qualité des données a fortement évolué ces dernières années, elle demeure exposée à de nombreux mythes pouvant être un obstacle à son optimisation.
Voici 7 mythes communs réfutés :
Mythe n°1 : Les utilisateurs métier sont responsables de
la qualité de leurs données. La gestion de
la qualité des données doit, au contraire, s’inscrire dans un effort collectif
de l’informatique et des utilisateurs métier. Les utilisateurs métier auront, d’une
part, la responsabilité de définir les règles, les indicateurs et les niveaux
d’acceptation de la qualité de données, et le département informatique fournira,
d’autre part, le cadre architectural nécessaire au respect des règles et
au suivi des indicateurs.
Dans ce contexte, l’entreprise pourra mettre en
place des règles et des procédures de gouvernance de données, pour s’assurer de
communiquer les problèmes aux utilisateurs et leur prise en charge par les
responsables des données du service informatique.
Mythe n°2 : Les outils de gestion de qualité de données
n’ont pas besoin de paramétrage. La gestion de la qualité
de données va bien au-delà de l’acquisition d’un outil, celui-ci ne
garantissant pas la détection et la correction instantanées des erreurs.
Si
l’outil doit être configuré avec des métadonnées, des déclarations et des
règles, conformément aux attentes des utilisateurs métier, il sera plus
efficace entre les mains de ceux ayant une connaissance approfondie des
données, du contexte et de la technologie. L’entreprise pourra alors mettre en
place un programme associant les bonnes pratiques liées à la gestion des
données, au data stewardship et à l’utilisation des outils.
Mythe n°3 : Les méthodes de qualité de l’industrie
s’appliquent aisément aux données. Il ne fait aucun doute
que certains aspects des processus de qualité utilisés dans le secteur industriel
peuvent être appliqués à la gestion des données d’entreprise. Prenons
l’analogie suivante : les données sont la matière première et l’information
constitue le produit fini.
Contrairement aux matières premières, les données
peuvent être utilisées de nombreuses fois. Et contrairement aux produits
manufacturés, l’information peut être réutilisée et transformée de telle
manière que le propriétaire de l’information d’origine n’aurait jamais imaginé
et encore moins prévu. Pour tenter de suivre le respect des spécifications, il
faut les connaître à l’avance, ce qui est rarement le cas pour les données.
Ce point peut
déboucher sur deux conclusions:
* Premièrement, s’il
existe un moyen d’anticiper comment les données seront réutilisées, les
responsables des données sources pourront réaliser un test au cours du cycle de
vie du développement pour anticiper les types de défauts susceptibles de
provoquer des problèmes en aval, et les limiter ou les éliminer dès le départ.
* Deuxièmement, ces
ensembles de données réutilisés ne devraient avoir aucune influence sur
l’insertion de contrôles de qualité. Dans les deux cas, les consommateurs de
données doivent veiller à l’adéquation de celles-ci avec leurs besoins, ce qui
pourrait exiger l’utilisation directe d’outils et de techniques de qualité de
données.
Mythe n°4 : Les données doivent être parfaites. Le perfectionnisme peut avoir un coût excessif lorsque les efforts pour atteindre
un niveau supérieur de qualité des données sont démesurés par rapport à
l’avantage d’une qualité parfaite sur une qualité suffisante. En effet, avec
des ressources limitées, il est préférable de concentrer ses efforts sur les
problèmes prioritaires.
Le fait de comprendre qui sont les consommateurs de données
et de connaître leurs attentes en matière de qualité vous permet d’anticiper
plus efficacement les problèmes de processus susceptibles d'introduire des
erreurs. La loi des rendements décroissants exige de la part de l’équipe responsable
de la qualité de données qu’elle affecte les ressources de façon intelligente
pour que l’organisation obtienne le meilleur retour sur investissement, avec le
maximum de valeur et d'efficacité.
Mythe n°5 : Le coût des données de mauvaise qualité est
évident (En veillant à ce que les données
soient parfaites, on augmente automatiquement le chiffre d’affaires et on
réduit les coûts). Il ne fait
aucun doute que l'existence de données déficientes aura des conséquences
négatives sur l’activité. D'une manière générale, le fait de réduire la
fréquence et la portée des erreurs limitera les impacts négatifs.
Mais on
dispose de bien peu d’informations sur le rapport entre une erreur précise et
les coûts correspondants. Il y a donc une différence subtile entre le fait de mettre
en place des contrôles pour éviter les conséquences négatives et de revendiquer
la valeur de données « parfaites ».
Mythe n°6 : La surveillance et le reporting de la qualité
de données éliminent les erreurs. Le fait d’utiliser un
tableau de bord de qualité de données pour être averti très tôt des incidents aide
l’entreprise à réagir rapidement face aux problèmes détectés. Cependant, être
réellement actif signifie anticiper les types d’erreurs susceptibles de se
produire et demander aux consommateurs d’évaluer les conséquences potentielles
de ces erreurs.
Les équipes de conception et d’implémentation savent alors si
des modifications fondamentales des processus peuvent limiter la survenue de
ces erreurs. En intégrant cette pratique de gouvernance dans le cycle de vie de
développement, on peut utiliser des outils et des technologies pour prévoir les
erreurs afin que les développeurs puissent réaliser des solutions et des
contrôles pour qu’elles ne se reproduisent pas.
Mythe n°7 : Les problèmes de qualité de données ne
peuvent être résolus qu’en améliorant les processus. Certaines méthodologies d’amélioration de la qualité des données ne visent
que l’amélioration des processus, insistant sur le fait que les fournisseurs
valident toujours leurs données avant de les fournir aux consommateurs.
Souvent, ceci suggère que les approches techniques ne sont pas nécessaires pour
améliorer la qualité des données.
Ces approches ne tiennent pas compte du fait
que les utilisateurs réutilisent des ensembles de données sans en contrôler la
création, et que les membres d’un environnement collaboratif doivent accepter
des normes pour partager des données. Pour garantir la fourniture de données
utilisables, ces situations demandent une combinaison d’outils et de techniques
de qualité des données et d’amélioration des processus.
La stratégie de qualité de données. Pour améliorer
la qualité de données, il faut associer une planification soigneuse à une
gestion efficace des ressources.
La responsabilité ne peut être attribuée sans réflexion préalable à
l’informatique ou aux métiers : il
faut tenir compte des deux perspectives pour établir les contrôles et les
procédures nécessaires à la création d’ensembles de données adaptés aux besoins
collectifs des consommateurs.
De même, la qualité
des données ne peut être améliorée en se contentant d’appliquer une technologie
ou de mettre en œuvre les améliorations de processus dictées par « le
lobby de la qualité ». Il faut un
effort collectif, apportant aux experts des processus métier, les outils
techniques appropriés pour prendre des décisions efficaces sur l’identification
et l’anticipation des types d’erreurs de données pouvant avoir un impact
négatif.
Des outils de
profilage et de mapping des données peuvent contribuer à évaluer différents
types d’erreurs et soutenir une surveillance continue pour générer des alertes
lorsqu’il faut gérer des erreurs échappant au contrôle de l’entreprise. Des
outils courants de qualité de données comme l’analyse syntaxique, la
normalisation, la mise en correspondance et la résolution des identités peuvent
servir à nettoyer les erreurs et à normaliser les données lorsque la cause des
erreurs est hors du contrôle de l’organisation.
Celle-ci peut configurer des
tableaux de bord et des scorecards pour surveiller les performances et
l’efficacité des responsables des données et des analystes de la qualité de
données, et comprendre comment appliquer les meilleures pratiques dans ce
domaine.
En adoptant ces
conseils, l’entreprise peut mettre en place une stratégie efficace et planifier
des améliorations de la qualité de données, à court, moyen et long terme.
L’intégration de méthodes pour tirer parti de la collaboration entre les
responsables de la mise en œuvre technique et les consommateurs des données
métier l’aidera à identifier activement les dépendances au sein de la qualité
de données, à anticiper les problèmes, et à mettre au point des contrôles de la
structure applicative afin d’éviter les erreurs.