L'IA de Facebook n'est pas raciste, elle est biaisée

La recherche scientifique a montré que les données traitées par les algorithmes d'intelligence artificielle pouvaient contenir des biais sociaux ou raciaux aux dépens des groupes minoritaires. Il est urgent de lutter contre ces biais en mettant les données, et non plus uniquement le modèle, au cœur du développement de l'IA.

Le récent scandale causé par un outil de recommandation défectueux de Facebook, qui proposait aux utilisateurs des contenus sur les primates sous une vidéo de personnes noires, souligne les nombreux défis de l’intelligence artificielle. Comment Facebook, une des entreprises leader de la technologie, dont le département d’intelligence artificielle (IA) dirigé par le brillant Yann Le Cun investit des milliards de dollars en R&D, peut-il laisser passer une erreur aussi grossière à caractère raciste ?

L’IA n’est pas raciste car l’IA ne pense pas. Mais l'amalgame scandaleux d'un algorithme de Facebook permet de comprendre comment elle fonctionne. L’intelligence artificielle est composée de deux éléments clés : l’algorithme et les données. Jusqu’à récemment la communauté scientifique a largement mis l’accent sur les algorithmes pour concevoir des modèles d’IA toujours plus puissants. La défaillance de l’outil de recommandation de Facebook montre que les algorithmes peuvent être faillibles.

Les données sont l’autre élément essentiel au développement de l’IA. Pour être intelligente, l’IA a besoin “d’apprendre” à partir de milliers de données utiles et exploitables. Ces données peuvent être des images, du texte, de la voix, des vidéos… La consistance et l’exhaustivité de ces données conditionne la performance des modèles d’IA. C’est un des sujets critiques sur lequel les équipes d’IA doivent être vigilantes afin de garantir la qualité du modèle et lutter contre les biais.

La recherche scientifique a montré que les images, textes, vidéos peuvent contenir des biais sociaux ou raciaux qui peuvent être intégrés par les modèles aux dépens des groupes sociaux minoritaires. La préparation des données par des annotateurs compétents est donc un travail essentiel pour assurer la pertinence de l’intelligence artificielle.

On se souvient qu’il y a plusieurs années, Facebook a largement sollicité l’intervention de ses utilisateurs en leur demandant d’identifier leurs amis sur les photos mises en ligne pour enrichir son modèle de reconnaissance faciale. L’externalisation de ce chantier a permis d’annoter des milliards d’images de manière gratuite... mais sans garantie sur la qualité de celles-ci. Il est en effet probable que les données traitées par l’algorithme de Facebook contenaient des biais (proportion déséquilibrée entre la part d’images de personnes blanches vs. celle de personnes noires) qui n’ont pas été suffisamment pris en compte.

Cet exemple choquant illustre de manière évidente l’importance primordiale de la donnée dans l’IA. Les données ne doivent plus servir à alimenter in fine le modèle, elles doivent au contraire être au cœur de la construction du modèle. C’est en travaillant en continu à la fois sur les données et sur le modèle que les data scientists pourront s’assurer de l’efficacité de l’IA (pas de biais, pas d’information sensible). C’est un nouveau paradigme que nous proposons, parce que la véritable valeur de l’IA réside dans la donnée.