La règle 1-10-100 pour taper dans le 1000 !

Selon la règle "1-10-100, vérifier un enregistrement revient à un dollar, nettoyer et corriger son doublon après son introduction coûtent dix dollars. Si rien n'est fait, l'entreprise subit une perte potentielle de cent dollars.

On définit la qualité des données par la mesure de l'exactitude, de l'intégralité et de la cohérence des données au sein d'un métier. Avec le développement des nouvelles sources d'informations (portails Web, interactions B2B, etc.), la problématique de la gestion de la qualité des données est devenue centrale au sein des entreprises. Aux Etats-Unis, par exemple, le "Data Warehouse Institute" considère que les problèmes liés à la qualité des données clients représentent un coût de 611 millions de dollars chaque année pour les entreprises.  
Les données d'entreprise ont un cycle de vie ; elles se déplacent dans plusieurs directions au sein et au-delà d'un métier. Dans les activités métier quotidiennes, les informations vitales circulent en aval, en cours d'exploitation et en amont. Des problèmes d'accessibilité tels que des doublons ou des incohérences sémantiques, peuvent donc se poser aux utilisateurs finaux. Cet impact sur la capacité d'exploitation peut affecter l'efficacité opérationnelle, les performances et finalement la profitabilité de l'entreprise.  
En ce sens, le cabinet SiriusDesigns a établi la règle "1-10-100" décrivant les avantages de la proactivité. Selon cette règle, vérifier un enregistrement revient à un dollar, nettoyer et corriger son doublon après son introduction coûtent dix dollars. Mais si rien n'est fait, l'entreprise subit une perte potentielle de cent dollars en rentabilité ou en recette.
 
Garantir la qualité des données  
Il est donc crucial de garantir et d'optimiser la qualité des données avant leur introduction dans la base de données de l'entreprise. Et cela passe avant tout par une automatisation du processus. 
 
Celle-ci se compose de quatre phases :

- Le profilage : il consiste à collecter des statistiques portant sur les données de l'entreprise, et permet d'obtenir une connaissance approfondie des données. Il devient ainsi plus facile d'analyser avec précision la qualité globale des données et d'identifier les anomalies et erreurs.

- Le nettoyage, la standardisation, l'enrichissement, le rapprochement et la fusion : ces étapes permettent de maintenir le niveau optimum de qualité des données. La standardisation consiste à formater les données selon des critères et règles définis. L'enrichissement donne une vue d'ensemble des données par l'extension et l'amélioration dynamiques des informations en les comparant à d'autres contenus. Enfin, le rapprochement et la fusion favorisent la cohérence des informations par la découverte automatique d'entrées apparentées à un même système ou à plusieurs.

- Le scoring : un nombre est affecté à chaque enregistrement de données pour avoir une idée de sa qualité. Les entreprises doivent être souples dans l'utilisation du scoring et appliquer des règles différentes à des types de données différents pour transmettre un sentiment d'urgence ou non lorsque des problèmes surviennent.

- L'extensibilité et la souplesse : l'entreprise doit établir sous quelle forme elle souhaite que les données soient enregistrées et cela pour déterminer celles qui sont alors incohérentes. Cependant certaines données, comme des informations sur le produit ne peuvent être déterminées et nécessitent un niveau de connaissance pour évaluer la qualité. L'entreprise doit donc appliquer des règles à ce type d'informations de façon plus proactive pour s'en assurer la qualité. 
Ces techniques sont également applicables aux sources extérieures. En effet, un large volume d'informations provient directement des fournisseurs, distributeurs et autres partenaires. Elles sont regroupées et agrégées à partir de sites Web ou fournies par les clients sous de nombreuses formes non structurées.
Une mise en place de gestion de qualité de données internes est donc inefficace. Celle-ci doit être globale en s'appliquant à toutes les sources d'informations de l'entreprise.
 
EIM d'envergure  
Cette stratégie est également nommée Enterprise Information Management (EIM).  Elle associe les principes et techniques de l'intégration d'entreprise, de l'informatique décisionnelle et de la gestion de contenu pour rationaliser les activités associées à la génération, au stockage, à l'accès et à la manipulation de données. Les entreprises accroissent ainsi la valeur de leurs informations en les exploitant afin d'obtenir un avantage concurrentiel significatif grâce à une amélioration de la productivité opérationnelle, à une réduction des coûts indirects et à de meilleures performances métier.  
De nombreux éditeurs proposent des solutions aux entreprises pour mettre en place une politique d'EIM en toute simplicité. Ainsi ces solutions donnent un accès direct au contenu des bases de données quelle que soit leur source. Elles permettent également une vue complète sur tous les éléments métiers, elles vont alimenter les moteurs de recherche de l'entreprise via les événements métiers et des extractions de données. Enfin, elles enrichissent les données des sources tierces permettant alors une optimisation tout au long du cycle de vie des données en garantissant leur homogénéité, qualité et exhaustivité.
 
Conclusion  
Des problèmes de qualité de données continuent à se répandre dans les entreprises. Quelle que soit leur origine, leur coût se chiffre en milliards d'euros tous les ans. Des techniques de pointe commencent à voir le jour. Elles permettent aux entreprises de surmonter ces défis. Grâce à ses solutions, les entreprises peuvent mettre en place avec une plus grande efficacité une stratégie de qualité de données.