Biais dans les modèles d'IA : les données synthétiques seraient-elles la solution pour une IA éthique ?

Auparavant considérée comme la chasse gardée du data scientist, l'intelligence artificielle est désormais omniprésente dans nos quotidiens.

Aujourd’hui, elle permet à tout le monde - des analystes commerciaux aux experts du secteur et data scientists - de collaborer et de fournir des informations rapides et automatisées à partir des données.

Les ressources humaines, par exemple, reçoivent un très grand nombre de candidatures pour chaque nouveau poste - en particulier dans le secteur de la tech. Afin d'identifier le meilleur candidat et de pourvoir le poste le plus rapidement possible, l'IA peut être exploitée pour automatiser le processus et générer automatiquement des informations pertinentes. Cependant, et comme toute autre technologie, l'IA dépend presque entièrement de l’humain qui est l’élément clé dans la mise en place de modèles efficaces. Afin de mettre en œuvre les algorithmes de machine learning et de deep learning, l’humain doit être en mesure d'identifier les biais cachés dans les données. Cela permet de prévenir la création de modèles pouvant entrainer des résultats discriminatoires.

C’est l’humain qui fournit à ces modèles les données nécessaires pour extrapoler des idées et des tendances. Des biais peuvent cependant s'immiscer dans ce processus, introduisant des données de mauvaise qualité dans les modèles d’IA et entrainant la production de résultats erronés et biaisés.

Comment les entreprises peuvent-elles s'assurer que leurs modèles d'IA fournissent non seulement des informations rapides et précises, mais aussi éthiques ?

Fournir des informations éthiques dépend des données

En résumé : l’IA est un outil de reconnaissance de modèles. Elle répond aux données entrantes de la façon dont elle a été programmée. La manière dont elle est construite relève de la responsabilité des data scientists et des développeurs, mais les données utilisées pour l’alimenter sont souvent collectées, fournies et contextualisées par des départements distincts.

Ces actions doivent toutefois être règlementées pour une utilisation éthique des données dans l'ensemble de l'entreprise. Un cadre réglementaire définit comment, où et quand les données peuvent (ou doivent) être utilisées, ou s’il ne faut tout simplement pas les utiliser. Dans l'UE, le RGPD constitue un cadre général, mais cette exigence d'équité, de propriété et de transparence des données nécessite l'adoption d'une règlementation et de processus internes spécifiques au sein de chaque entreprise.

A défaut de compétences interservices, de connaissance des données et d’un cadre réglementaire, les données sélectionnées pour alimenter les modèles d'IA peuvent être défectueuses, incomplètes ou non conformes. Elles peuvent notamment contenir des éléments discriminatoires. Cela a été le cas du géant du retail Amazon qui a développé un prototype d'algorithme pour recruter. Les données utilisées couvraient une période de dix ans et visaient à identifier les meilleures candidatures sur la base des performances de travailleurs occupant des fonctions similaires dans le passé. Cependant, cet algorithme s’est avéré discriminant, notamment envers les personnes s’identifiant comme femmes. Pourquoi ?

Les conséquences de l’alimentation de l'IA avec des données de mauvaise qualité

L'une des principales idées reçues concernant l'IA est qu'il s'agit d'une boîte magique capable de prédire l'avenir. En réalité, l'IA est un outil de reconnaissance de modèles qui fonctionne de façon spécifique sur des données. Lorsque vous fournissez à un modèle d'IA 1000 points de données provenant d'employés performants, et que 84% de ces employés ont un point similaire, l'IA va se concentrer sur ce point. Dans l'exemple d’Amazon cité ci-dessus, statistiquement, les candidats masculins ont mieux performé dans ce rôle parce que, historiquement, plus d'hommes ont effectué ce travail.

Le problème des biais est lié à des problèmes historiques et systémiques dans le secteur de la tech. Des études démontrent en effet que les femmes ne représentent que 16% de la main-d'œuvre mondiale de haut niveau dans le secteur. Bien qu’il s’agisse pour les humains d’une discrimination évidente et préjudiciable, l'IA met ces résultats en évidence car elle se base sur les données qui lui sont fournies. Celles-ci, en l’occurrence, dévalorisent les candidatures comportant le mot "dames" ou autres synonymes, les femmes étant statistiquement moins souvent recrutées que les hommes. L'équipe de développement d’Amazon a bloqué ces critères d'évaluation mais cela ne pouvait pas garantir que l'algorithme n’en trouverait pas d'autres qui favorisent de nouveau les hommes, le modèle étant alimenté par des données faussées. Amazon a donc mis fin au projet.

Les données synthétiques : un support éthique ?

Pour fournir des informations éthiques fondées sur l'IA, il faut trois éléments majeurs. D’abord, les données. Ensuite, la qualité de ces données pour garantir des informations fiables une fois introduites dans les modèles d'IA. Mais que faire s’il n’y a pas assez de données de qualité ?

Les données synthétiques entrent alors en jeu. Il s’agit d’informations générées, annotées automatiquement et extrapolées à partir d'ensembles de données entièrement représentatives. Ces données artificiellement générées imitent les propriétés statistiques de l'ensemble original de données, mais masquent la totalité des données réelles à partir desquelles elles ont été générées. Les données synthétiques peuvent être extrapolées à partir d'un ensemble de données réelles pour en ajuster la taille sans en altérer la pertinence statistique ou représentative. Le troisième élément majeur est de disposer d'une équipe qualifiée et formée.

L’alimentation en données d’un modèle d'IA arrive relativement tard dans le processus. L'équipe de développement reçoit généralement une demande de modèle spécifique pour une tâche spécifique. Pour construire ce modèle d'IA, l'équipe de développement demandera des données aux équipes concernées, y compris les RH. Si ces données sont fournies sans vérification ni nettoyage en amont - une liste de CV des dix dernières années, par exemple – elles contiendront sans doute un grand nombre de biais.

La capacité à générer un échantillon représentatif à partir de données récoltées est relativement simple grâce aux outils d'échantillonnage de données. En procédant à un nettoyage de la base de données, il est possible d'obtenir un échantillon aléatoire ne comportant pas de résultats biaisés. Il est également possible d'utiliser des méthodes de protection de la vie privée pour s'assurer que les données ne permettent pas de remonter jusqu'aux individus. Sans une combinaison de données et la connaissance du secteur, les développeurs ne disposent pas de l'expérience suffisante pour générer eux-mêmes des échantillons représentatifs. Il est d’ailleurs nécessaire de renforcer les compétences au sein du département pour faciliter le travail sur les données et soutenir les objectifs de l'entreprise.

Pour rester innovant et concrétiser la valeur ajoutée des données, une utilisation interservices des modèles d'IA et de leurs résultats est indispensable. Alors que de plus en plus d'employés peuvent accéder aux données et utiliser l'analytique - brisant les silos de la data science et faisant de l'analytique un processus plus collaboratif – le recrutement et le perfectionnement des experts dans l’entreprise est une étape essentielle pour mettre fin aux données biaisées.

Des équipes diversifiées sur le terrain sont bien plus à même de repérer ces biais grâce à leur propre expérience acquise. C'est pourquoi, en travaillant dans un cadre règlementaire bien défini et contextualisé, les développeurs et data scientists pourront collaborer plus efficacement avec les différentes équipes afin d’alimenter les modèles d'IA avec des données de meilleure qualité, augmenter leur précision et ainsi fournir des résultats plus éthiques.