5 bonnes pratiques pour un environnement éthique en data science

Face aux grosses collectes de données, les entreprises essayent de plus en plus de mettre à profit la technologie d'apprentissage machine (ML) pour les analyser plus rapidement et plus précisément.

Le machine learning automatisé engendre actuellement une véritable petite révolution dans le monde de l’IA. En démocratisant le machine learning au service de l'analyse des données pour des entreprises de toutes tailles, des outils tels qu'AutoML, permettront dans les années à venir d’exploiter plus efficacement les données en temps réel et ce, sans avoir besoin de constituer des équipes de data scientists spécialisés. 

Cependant, malgré toutes les promesses de la technologie AutoML, les organisations doivent rester très attentives à l'élimination de tout biais potentiel encodé dans les algorithmes ML qui pourrait interférer dans la qualité des données à analyser. Il a été en effet été prouvé que les erreurs des algorithmes de Machine Learning peuvent avoir un impact sur le chiffre d'affaires des entreprises : une étude de DataRobot avec le Forum Economique mondial, stipule que parmi les entreprises lésées par ces erreurs, près des deux tiers ont perdu des revenus ou des clients. 

La manipulation biaisée des données est un sujet sensible qui est stratégique pour l’entreprise que ce soit au niveau business qu’au niveau éthique. Les organisations doivent s'attaquer à la fois aux problèmes technologiques et humains qui en sont la cause. La priorité est d’encourager un environnement de data science éthique pour garantir des aperçus de données efficaces et précis ainsi que des prises de décisions fondées sur un contexte réel et représentatif de celui de l’entreprise. Voici donc les cinq pratiques clés qui peuvent favoriser un environnement éthique et vertueux pour la data science :

Mettre l’intelligence humaine au service de la chasse à l’erreur

Pour commencer, le premier défi consiste à constituer une équipe capable d'examiner non seulement les algorithmes, mais aussi les données, les conclusions et les résultats, de manière impartiale, objective, équitable et juste. 

Utiliser des ensembles de données diversifiés

Lorsqu'elles examinent le risque d’erreur du Machine Learning, les entreprises doivent d'abord s’assurer qu’elles utilisent un ensemble de données suffisamment large pour ne pas présupposer le résultat. Si la réponse est non, les équipes informatiques doivent élargir leur champ d'action pour s'assurer que toutes les données pertinentes capturées représentent un échantillon de l'ensemble de l'entreprise afin de fournir les résultats les plus équitables.
Outre l'ingestion d'un large éventail de data internes, les organisations peuvent aussi s’appuyer sur des données tierces provenant de marketplace par exemple. En collectant des données provenant de l'extérieur, de leurs concurrents et du marché au sens large, les entreprises réduisent ainsi le risque de biais.

Suppression des erreurs codées dans les algorithmes

La façon dont un algorithme est codé dépend des actions et du processus de pensée de la personne qui a effectué le codage. Ceci signifie qu'il est susceptible d'être biaisé selon la personne qui l'a écrit. Il est donc judicieux de confronter la partialité potentielle de l'algorithme une fois qu'un ensemble de données large et diversifié a été établi. 

La diversification des effectifs est incontournable pour des donnée éthiques

Les entreprises doivent tenir compte de l'impact de la diversité de leurs effectifs sur les algorithmes de Machine Learning. Cela inclut toutes les dimensions de la diversité, notamment l'expérience, le milieu socio-économique, l'origine ethnique et le sexe. Ce facteur multidimensionnel important ne doit pas être perdu de vue. Si les algorithmes de Machine Learning sont créés sans tenir compte de cette notion de diversité, les entreprises risquent de fausser involontairement leurs données et d’obtenir des résultats qui ne reflètent pas leur réalité. La diversification des effectifs est donc un pas important vers un environnement éthique pour les analyses de machine learning et les données. 

Créer un conseil d'éthique

Au delà de la chasse aux erreurs de codes et de la course à la diversification des données collectées, les organisations qui désirent s’assurer de la viabilité de leurs datas devront envisager de mettre en place un conseil ou un comité d'éthique dédié dont la fonction est de supprimer tout préjugé potentiel dans le processus de collecte et d'analyse des données pour examiner les résultats et s'assurer du bon équilibre entre les données et les valeurs. Les cadres d'évaluation garantiront que les algorithmes, les données, les conclusions et les résultats, sont produits de manière équitable. 

Pour conclure, les organisations qui souhaitent sérieusement éliminer les erreurs encodées dans leurs algorithmes de Machine Learning doivent adopter une approche à plusieurs niveaux. Ce n'est qu'à cette condition que les entreprises tireront le meilleur parti de leurs données en créant un environnement de data science éthique qui fournit des perspectives de données automatisées qui sont justes, précises, éthiques et fiables.