Intelligence artificielle : la science des données en open source serait-elle la clé de l'impartialité ?

À l'instar des humains qui effectuaient certaines tâches bien avant l'introduction de la technologie, l'IA peut également les réaliser avec la même vision tronquée. C'est là où l'open source intervient.

Après l'âge de pierre, de bronze, du fer, de la data, il semblerait que nous sommes actuellement dans l'ère de l'intelligence artificielle. En effet, l’IA s’est tellement intégrée dans notre quotidien qu’elle en devient imperceptible. Cette technologie rédige aujourd’hui des contrats juridiques, évalue les candidats pour un emploi, valide des demandes de prêt, détecte les fraudes financières et aiguille les patients dans le bon établissement de santé - la liste de ses usages est infinie et permet à l‘IA de tendre vers l’impartialité. Néanmoins, pour qu’elle le soit réellement, les développeurs et concepteurs peuvent s’appuyer sur la data science accessible en open source.

Homme ou machine : la perception peut être biaisée

À l'instar des humains qui effectuaient certaines tâches bien avant l’introduction de la technologie, l’IA peut également les réaliser avec la même vision tronquée. Pour l’IA, cela s’explique par le fait que les algorithmes apprennent en analysant des ensembles de données ayant pour vocation d’établir des modèles et des règles prévisibles. Toutefois, il est fréquent de retrouver des biais humains dans ces ensembles de données, et cela bien souvent à l’insu des ingénieurs. En effet, un ensemble de données est provient d’un seul groupe démographique ou d’un groupe non représentatif de la population. De ce fait, certaines données subjectives ne sont généralement pas visibles et sont donc difficiles à corriger. Ainsi, si on devait illustrer cela, un système de validation d’hypothèques pourrait refuser une catégorie de personnes plutôt qu’à une autre, des outils de reconnaissance faciale ne parviendraient pas à identifier des personnes racisées, ou encore des générateurs d’images ne proposeraient que des images stéréotypées lorsqu’on leur demande de représenter un chef d’entreprise.

Alors que les entreprises s’appuient de plus en plus sur l’IA pour automatiser, rationaliser et accélérer la réalisation de leurs tâches élémentaires, il n’a jamais été aussi important de réduire ces biais. L’une des solutions pour résoudre ce problème réside dans la science des données accessible en open source. Étant basée sur le travail d’une communauté de contributeurs internationaux, elle permet aux fournisseurs de solutions de mettre en place des outils d’IA plus objectifs, et cela rapidement, en toute transparence et autonomie.

Comment l’IA apprend à imiter les biais humains ?

De nombreux algorithmes d’IA sont fondés sur les probabilités et les statistiques. Ils constituent un ensemble de règles et de calculs programmés qui déterminera la manière dont l’IA exécutera des tâches spécifiques sur la base des données introduites dans le système. Basiquement, on estime qu’il y a biais lorsque l’IA prédit un résultat non-justifié (comme la capacité d’une personne à rembourser un prêt) sur la base de caractéristiques telles que l’origine, l’âge, le sexe, la catégorie socio-professionnelle, etc.

Les ingénieurs testent donc cette technologie à partir d’un ensemble de données appelées données d’entraînement. Elles sont traitées et triées avant d’être introduites dans le système mais peuvent également être faussées pour favoriser ou défavoriser certains groupes. Par exemple, les données introduites dans une plateforme de recrutement basée sur l’IA peuvent apprendre à l’algorithme que la plupart des personnes recrutées pour des postes de direction sont titulaires d’un Master ; la solution écarte donc automatiquement tous les autres candidats quitte à passer à côté de talents. L’erreur n’est pas due à l’inexactitude des données initiales, mais au fait que les recruteurs portent encore trop d’importance aux diplômes universitaires, même pour des postes où l’enseignement supérieur n’a aucune incidence sur les performances professionnelles. Les ingénieurs peuvent ne pas se rendre compte que ce biais est inhérent aux données d’entraînement, et lancer sans le savoir des modèles de machine learning n’ayant pas été exposés à une population représentative ou diversifiée.

Dans d’autres cas, le modèle de l’IA peut dériver petit à petit à cause de l’exposition aux données du monde réel. Si les données d’entraînement et les algorithmes qui en résultent sont réellement impartiaux, l’IA va traiter tous les candidats de manière égale. Mais au fur et à mesure, elle va apprendre que les candidats qui utilisent les mots "leader" et "volontaire" sur leur CV sont plus susceptibles d’être embauchés. Cela est encore plus susceptible de se produire si le nombre de candidats constitue un vivier biaisé en faveur d’un genre ou d’un certain groupe démographique.

La science des données en open source a sa place dans le développement de l’IA

Cette technique apporte des résultats prometteurs pour minimiser ces biais. Elle est en effet guidée par la collaboration, la confiance et la transparence. Au sein des systèmes fermés et/ou privés, l’ingénieur a une responsabilité et un contrôle total sur le comportement du modèle. Mais dans un système ouvert, les ingénieurs bénéficient des perspectives, des idées et des contributions d’autres personnes travaillant sur des problèmes similaires.

Ainsi, l’IA en open source dirige les ressources vers des problèmes plus complexes, comme la correction des biais dans les ensembles de données. Par exemple, une université peut utiliser l’IA pour déterminer l’attribution des bourses aux étudiants, et une banque peut l’utiliser pour valider les demandes de prêt des PME. Même si ces organisations ne sont pas concurrentes, elles utilisent le même outil pour évaluer les mêmes besoins financiers. Dans un système ouvert, les deux organisations peuvent autoriser une ressource d’IA existante et contribuer en retour à cette ressource afin que les résultats soient bénéfiques à tous. Si l’université détermine qu’un modèle exclut des groupes d’élèves spécifiques dans l’attribution des bourses, elle va pouvoir le corriger et les autres titulaires et utilisateurs de la licence de l’outil en bénéficieront.

Par ailleurs, dans un modèle en open source, les données et l’approche utilisées pour former des modèles et des algorithmes d’IA sont transparentes. Cette transparence permet à tout contributeur d’analyser si le modèle a dérivé dans le temps et de proposer des mesures correctives. Avec autant de contributeurs, il est difficile de compromettre l’outil intentionnellement ou non. De plus, si les biais se manifestent dans le code de façon disparate et dans la durée, les (petites) équipes d’une entreprise en interne ne sont pas nécessairement les mieux équipées pour les repérer et les éliminer. S’appuyer sur l’open source élargit considérablement le bassin de personnes travaillant sur le projet, réduisant ainsi le risque de dérapage au fur et à mesure de l’évolution de l’outil.

Quel que soit le secteur d’activité, nous dépendons de plus en plus de l’IA. Les entreprises et organisations qui déploient cet outil sont moralement et légalement engagées, et doivent s’assurer que leurs clients, administrés et utilisateurs ne subissent pas de discrimination en raison d’algorithmes biaisés. Par conséquent, les outils d’IA doivent être modelés pour être des décideurs moins biaisés que leurs homologues humains - et un modèle ouvert et transparent peut aider à atteindre cet objectif.