A l’heure de l'automatisation le rôle de l’humain, gardien du temple, est renforcé

La qualité des données, produites par les collaborateurs des entreprises, est essentielle pour maximiser les effets positifs de l'IA.

Les progrès de l’intelligence artificielle (IA) ont été jusqu’ici limités par l’insuffisance et le coût de la puissance de calcul, sans parler du manque de maturité en matière d’analyse de données ou du manque de personnel qualifié. Maintenant que ces contraintes se lèvent, un troisième frein est mis en évidence. Les données surabondantes ne sont pas pour autant prêtes pour l’analyse, l’IA, ou le machine learning. Gartner indiquait à ce titre dans un rapport de 2016 sur le marché de la préparation des données en libre-service que "les utilisateurs d'analytique passent la majorité de leur temps à préparer des données pour l'analyse, ou à attendre que les données leur soient préparées".

Cela met en évidence un aspect fondamental mais souvent négligé de la fonction de traitement des données : la qualité des données. On connait l’apport des approches data driven et de l’IA pour faciliter la prise de décision en temps réel. Mais comment garantir que ces décisions sont les bonnes sans avoir préalablement pris soin de garantir que ces données sont précises et fiables ? Après tout, il n’y a pas d'IA sans données parfaites, et seul l’humain est en mesure d’assurer le contrôle sur les données. A l’heure où certains s’inquiètent de l’impact de l’IA sur les emplois, les grands leaders du numérique embauchent massivement des modérateurs ou curateurs afin de contrôler et sécuriser les données.

Si les données sont le nouveau pétrole, alors gare aux marées noires

Selon IBM, les données erronées coûtent aux entreprises 3 000 milliards de dollars par an au niveau mondial. Parallèlement, Gartner chiffre l'impact financier moyen pour une entreprise de la piètre qualité des données à 15 millions de dollars par an. La revue Harvard Business Review attribue cela à des "usines de données cachées", où chaque département finit par devoir vérifier par lui-même les données déjà présentes dans le système. Cela entraîne notamment des problèmes de données incorrectes qui peuvent se retrouver entre les mains des clients, les employés doivent donc alors consacrer jusqu' à 50 % de leur temps à la recherche et à la correction de celles-ci. Les employés passent un temps considérable à intégrer et mettre en forme des données avec des outils bureautiques comme Excel. Sans compter les problèmes de sécurité, puisque ce sont souvent ces fichiers "bricolés" qui sont exposés à l’extérieur et révèlent les informations les plus sensibles.

Dans un monde où les données ont été qualifiées de "nouveau pétrole", il est urgent que les organisations réalisent qu’elles doivent prendre le contrôle de leurs données. A l’heure du Big Data, elles sont aussi plus faciles à falsifier. Alors que les enquêtes montrent que 80 % des acheteurs en ligne se déclarent influencés par les avis, une enquête de la DGCCRF a démontré que 35% des avis sur Internet ne sont pas authentiques. Continuerons-nous à faire confiance à des systèmes data driven si la qualité des données sous-jacentes n’est pas maîtrisée ?

Or la qualité des données a bien peu progressé ces dernières années. Car si les données sont désormais partout et de plus en plus faciles à capturer, leur validité est de plus en plus éphémère. Un rapport de HubSpot de 2013 estimait d’ailleurs le taux de dégradation des données client à 22,5% par an. Maintenant que l'analyse en temps réel et de l'IA permettent aux entreprises d’adapter leurs offres et leurs prix aux spécificités du marché ou même aux profils de chaque client, celles-ci ne peuvent plus se permettre de telles marges d’erreur.

Ceci passe par la responsabilisation de tous ceux qui ont besoin de données pour faire le travail, c’est-à-dire potentiellement quasiment tous les employés d’une entreprise. C'est pourquoi le libre-service, l'accès aux données dans le cloud, la préparation et l'intégration des données sont si importants pour les entreprises modernes. Avec plus de données dans le cloud que jamais auparavant, les entreprises doivent adopter une approche responsable de la gestion des données. Dans un monde idéal, il s'agit de mettre à disposition de tout un chacun un environnement sous contrôle - garantissant la confidentialité et la protection des données, tout en offrant aux bonnes personnes l'accès dont elles ont besoin, au moment où elles ont en besoin.

La data quality au service de l’intelligence artificielle… et vice-versa

Responsabiliser les utilisateurs sur la qualité des données, est certes indispensable, mais la tâche peut être dantesque. Et c’est là que l’IA peut accompagner les employés dans la qualification des données. Prenons l’exemple du dédoublonnage des bases de données. L’utilisation d’outils traditionnels de qualité des données permettra de croiser automatiquement les bases marketing, e-commerce, web et CRM. Toutefois, pour une petite population d’enregistrements, par exemple les clients qui ont donné des e-mails différents dans les différentes applications, l’outil devra laisser la main à un utilisateur pour trancher. Même si cette population représente seulement 2 % de la base de données, elle peut devenir très importante si la base l’est également. La solution est de demander à quelques utilisateurs qui manipulent ces données de travailler sur un échantillon. Sur la base de leurs décisions, un outil de machine learning pourra capturer leurs connaissances puis les appliquer au reste de la base à analyser, ainsi qu’aux enregistrements à traiter dans l’avenir. C'est un bon exemple d’intelligence augmentée : la connaissance est souvent disponible à l’état informel, par ceux qui sont sur le terrain. Il est souvent complexe, voire impossible, de la capturer de manière explicite et de la coder dans un système d’information. L’enjeux est donc de combiner le savoir-faire de ceux qui manipulent les données au quotidien et du machine learning, pour capture leur connaissance implicite et les réappliquer à grande échelle.

Autre cas d’usage pour des données non structurées : en utilisant le traitement du langage naturel (natural language processing ou NLP), nous pouvons enseigner aux machines à comprendre le langage humain - qu'il soit verbal ou écrit. En extirpant des informations telles que les noms et les numéros de téléphone d’un ensemble de données non structurés (tels que les échanges d’emails, la NLP permet de connecter les données aux clients à qui elles font référence. Un exemple d'utilisation pratique de la NLP est l’anonymisation des données d’un forum ou d’un centre d’appel. Avec l’avènement des réglementations sur le respect de la vie privée, comme le RGPD dans 6 mois, il peut être nécessaire de détecter et de masquer des données à caractère personnel comme un numéro de téléphone ou un e-mail laissé par un client dans un forum ou même un commentaire inapproprié sur un employé ou un client dans les notes des systèmes CRM ou RH.

Assurer la qualité des données

Les applications avancées de préparation de données en libre-service en mode SaaS sont essentielles pour les entreprises qui utilisent l'analyse en temps réel et l'intelligence artificielle pour créer une relation vertueuse entre les utilisateurs et les machines. En rendant accessible ces fonctionnalités et services aux utilisateurs métiers et non plus seulement aux professionnelles informatiques, les innovations technologiques ont démocratisé leurs usages. En même temps, ces solutions permettent aux services informatiques de maintenir le contrôle et la gouvernance des données afin d'assurer le respect des réglementations en matière de données, comme le RGPD. Les entreprises peuvent utiliser plus efficacement leurs données comme un atout stratégique pour améliorer leur performance et leur compétitivité. On ne peut sous-estimer l'impact sur l’activité d’une entreprise de rendre à un salarié 50 % de son temps de travail, le tout en supprimant les obstacles à une analyse en temps réel.

Dans l'ère moderne de la gestion des données, les entreprises doivent adopter une nouvelle approche de la qualité de celles-ci pour tirer le meilleur parti des possibilités offertes par l'intelligence artificielle et augmentée.