Doit-on s'attendre à une révolution de la qualité des données grâce aux progrès de l'IA générative ?

Une révolution de la qualité des données est-elle en marche, propulsée par des modèles qui utilisent l'intelligence artificielle générative comme ChatGPT ?

Alors que l'utilisation de l'IA dans l'industrie des données s'est jusqu'à présent principalement concentrée sur l'analyse prédictive, nous entrons dans une ère d'IA générative et créative, dans laquelle un outil puissant pour le traitement du langage naturel, l'analyse des données et l'automatisation façonnera l'avenir de la gestion et de la qualité des données.

L'IA est utilisée dans l'industrie des données depuis les années 1950 et 1960, lorsque les premiers programmes d'IA ont été développés pour traiter et analyser les données. Ces premiers programmes utilisaient des systèmes fondés sur des règles, des raisonnements symboliques et des systèmes experts pour faire des déductions et obtenir des informations à partir des données.

Qu'en est-il du monde des données d'aujourd'hui ? Selon le Data and Analytics Leadership Annual Executive Survey 2023, 80,5 % des responsables des données indiquent que l'IA/ML sera un domaine d'investissement accru dans les données et l'analytique au cours de l'année 2023, et qu'il s'agira de la priorité numéro un d'investissement pour 16,3% d'entre eux. On retrouve en deuxième place, la qualité des données pour 10,6% des organisations. La qualité des données est un aspect essentiel de la gestion des données. Elle permet aux entreprises de prendre des décisions éclairées sur la base d'informations précises, complètes et cohérentes. Une mauvaise qualité des données peut entraîner des erreurs dans la prise de décision, une perte de revenus et une atteinte à la réputation d'une entreprise.

A l’heure actuelle, une majorité des entreprises sont confrontées à des défis dans l’utilisation des données, et leur principale préoccupation est d’assurer la qualité de leurs données.

Cela signifie qu'il y a une énorme opportunité d'amélioration - et les bénéfices peuvent être considérables pour les entreprises qui y parviennent.

Quel avenir pour les workflows de qualité des données ?

Selon un rapport de Gartner, d'ici 2025, au moins 50 % de toutes les tâches de gestion des données seront automatisées. La plupart d'entre elles seront réalisées à l'aide d'une automatisation alimentée par l'IA/ML, comme les modèles d’IA générative, qui promettent de bousculer en profondeur le marché. Il est donc temps que les techniques de gestion des données évoluent.

De la création de contenu à l'automatisation des tâches de développement, ces technologies font déjà des remous dans le monde de l’entreprise, et leur impact sur les initiatives de gestion et de qualité des données ouvre de nouvelles perspectives. En automatisant et en simplifiant les tâches de gestion des données comme jamais auparavant, ces technologies promettent de révolutionner la manière dont les organisations traitent leurs données. Grâce à une automatisation et une efficacité accrues, il sera plus facile pour les entreprises de garantir l'exactitude, l'exhaustivité et la cohérence de leurs données.

Qualité des données : entrer dans le concret avec l’exemple d’un workflow

Dans le cadre d’un workflow, une évaluation technique de la qualité des données est tout d’abord effectuée à l'aide d'algorithmes d'apprentissage automatique afin d'identifier les anomalies et de quantifier la gravité des problèmes. Ensuite, sur la base des résultats de l'évaluation, des modèles de langage génératifs peuvent être utilisés pour suggérer des règles de qualité des données et des transformations dans un texte en langage naturel que les utilisateurs métiers de l'entreprise peuvent facilement comprendre.

Une fois les règles acceptées, elles peuvent être converties en code exécutable, tel que Python ou SQL. Bien entendu, avant de déployer le code en production, il faudra le tester et le valider à l'aide d'un échantillon de données pour s'assurer que les règles fonctionnent comme prévu et que les paramètres de qualité des données sont respectés. Mais une fois cette étape franchie, les données nettoyées peuvent être utilisées pour diverses tâches, de l'analyse et de la visualisation des données, à l'apprentissage automatique et à la veille stratégique.

Voici un bon aperçu de ce qui se prépare et de la transformation significative que s’apprête à subir le secteur de la gestion et de la qualité des données. Bien que l'utilisation des modèles d’IA générative dans ce domaine en soit encore à ses débuts et fasse l'objet de recherches de la part d'experts du secteur, il existe déjà des projets de recherche et des prototypes qui démontrent le potentiel de ces technologies. L'avenir est plus prometteur que jamais en la matière, l’intelligence artificielle générative offrant de nouvelles possibilités, en attendant d’autres percées dans le monde de la gestion et de la qualité des données.