Six conseils pour prendre soin de la santé des données

Nous essayons tous de suivre les recommandations de santé publique qui contribuent à notre équilibre – comme manger cinq fruits et légumes et marcher au moins trente minutes par jour. Mais notre santé dépend aussi de la qualité du système de traitement et de prise en charge. La santé des données suit le même principe : sans infrastructure adaptée, l'effet sera moins important.

L'effort des entreprises doit porter sur l'ensemble du cycle de la qualité des données (évaluation, amélioration, suivi des indicateurs...) et être répété en continu, car la qualité des données est un processus en perpétuel renouvellement. Il nécessite des outils, des processus et la participation des collaborateurs. De la même façon que les patients sont des acteurs clés du système de santé, les spécialistes des données et tous les utilisateurs sont des éléments centraux de cette démarche relative à la santé des données. L'approche utilisée doit donc être systématique.

Sur quels éléments s'appuyer pour pérenniser l'hygiène des données d'une entreprise ?

Prévention, diagnostic et traitement pour mieux comprendre et agir

Si les données ont été trop longtemps traitées comme des unités simples et concrètes sur une feuille de calcul ou dans une base de données, des objets numériques passifs attendant une analyse, ce type d'approche n'est plus suffisant. Les données sont en réalité des organismes complexes et évolutifs, qui entrent et sortent, sont mises à jour par les utilisateurs et transformées par des contextes changeants. Grâce à ces mouvements, il est possible de tirer des informations de ces données et d'en modifier la valeur. Pour cela, il faut en avoir une vision plus responsable et plus globale.

  • Identifier les facteurs de risque existants. Il existe des risques endogènes, comme les applications, processus et collaborateurs de l'entreprise, et d'autres qui viennent de l'extérieur - partenaires, fournisseurs, clients. Identifier les domaines les plus risqués permet de prévenir plus efficacement les dangers avant qu'ils ne surviennent.
  • Mener des programmes de prévention. Conserver une bonne hygiène des données nécessite de suivre certaines bonnes pratiques. A l'image des étiquettes nutritionnelles qui informent les consommateurs sur la conséquence d'un certain type d'alimentation sur leur santé, il est tout aussi nécessaire d'évaluer et de contrôler l'ingestion de données en produisant des informations plus faciles à comprendre, et plus difficiles à ignorer.
  • Inoculation proactive. Suivant le principe d'un vaccin qui apprend au corps à reconnaître un agent pathogène et à le combattre, le machine learning joue un rôle similaire au sein des infrastructures de données, en entraînant les systèmes à reconnaître les données de mauvaise qualité et le côté suspect de certaines sources avant qu'elles ne s'implantent et contaminent programmes, applications ou analyses.
  • Opérer un monitoring régulier. Pour surveiller la santé d'un patient auparavant, la méthode principale était le bilan de santé annuel. Mais grâce aux objets médicaux connectés qui collectent des données sur l'activité et la fréquence cardiaque ou encore le taux de glycémie d'une personne diabétique, le corps humain est désormais observable. Des pratiques transposables dans l'univers des données sous forme d' « évaluation » ou  de « profilage », et faisant bientôt de l'observabilité continue une réalité. Plus un problème est détecté tôt, plus les chances de le traiter efficacement sont élevées. S'il s'agit d'une question de vie ou de mort en médecine, les risques sont bien sûr différents mais l'observabilité de la qualité des données pourrait, elle aussi, sauver la vie de certaines entreprises.
  • Etablissement de protocoles pour un diagnostic continu. Ce n'est qu'en comprenant ce qu'il faut soigner que les médecins peuvent prescrire le bon traitement. Or la médecine, comme la santé des données, n'est pas une science exacte. Le diagnostic doit être constamment révisé et amélioré.
  • Rendre les traitements efficaces. Etablir un traitement médical revient à évaluer le rapport entre risques et bénéfices, pour trouver celui pour lequel les bénéfices l'emportent sur les effets secondaires potentiels, sans pour autant activer un traitement seulement en cas de risque zéro. Le domaine des données nécessite aussi de faire des compromis, la qualité des données pouvant introduire de nouvelles étapes dans le processus, ou des couches de sécurité additionnelles qui allongent les délais. L'automatisation ne peut pas résoudre une bonne partie des problèmes collatéraux liés à la qualité des données. Comme les médecins, les spécialistes en santé des données maîtrisent cet équilibre.

Comme c'est le cas pour la médecine, il n'existera peut-être jamais de photographie parfaite de tous les facteurs impactant la santé de nos données. Néanmoins, établir une culture d'amélioration continue soutenue par les collaborateurs équipés des meilleurs outils et solutions du marché peut permettre aux entreprises de se protéger des risques les plus courants. Et en intégrant des fonctionnalités de qualité tout au long du cycle de vie des données, il est possible de faire de la santé des données un véritable mode de vie.