Pas de ChatGPT et autres IA de confiance sans un partage massif de la donnée par les organisations

Téléchargé rapidement par des millions d'utilisateurs, ChatGPT remet en lumière la question de la source de la donnée. Sur quelles données s'appuie l'IA ? Peut-on lui accorder une confiance aveugle ?

Les comportements discriminatoires observés chez plusieurs IA antérieures à ChatGPT soulèvent la question de la qualité et de la diversité des données utilisées pour entraîner les IA. Pour créer des IA de confiance, les organisations peuvent jouer un rôle clé en mettant à la disposition de tous leurs données “partageables", c’est-à-dire les données non personnelles et non confidentielles et qui représentent une masse de connaissance inestimable qui s’accumule du fait de leurs activités. Sans le partage volontaire par les organisations de cette information, les IA ne prendront pas en compte la diversité des sujets et des acteurs et délivreront des informations erronées ou partielles. 

Depuis son lancement, ChatGPT est LE sujet tech à la mode. Conçue par la société américaine OpenAI, cette IA, téléchargée par des millions d’internautes depuis son lancement en novembre dernier, fascine et inquiète tout à la fois. IA conversationnelle, ChatGPT est capable, à la suite d’une requête d’internaute, de rédiger de longs textes sur des sujets spécifiques, de synthétiser un long document, de faire un ordre du jour, de générer des idées pour écrire un livre, voire d’écrire le livre, de résoudre un calcul complexe, ou encore d’identifier des bugs de code pour les développeurs, etc. ChatGPT est une intelligence artificielle qui séduit par la simplicité de son utilisation et démocratise l’IA auprès du grand public. Mais, comment fonctionne-t-elle ? Quelles sont les données sur lesquelles s’appuie cette IA pour produire l’information ? Si les contenus du web sont largement exploités, d’autres data issues de données produites par les entreprises ou organismes publics viennent alimenter cette base de connaissance. Au total, ChatGPT concentre des centaines de milliards de données mais n’intègre pas les données du net à la volée, son référentiel s’arrêtant pour l’instant à 2021. En faisant l’impasse de données produites depuis cette date, ChatGPT se prive donc de toute une masse de connaissances dont le traitement pourrait, pour certaines requêtes, conduire sans doute à des réponses différentes. Peut-on alors, dans ce contexte de données tronquées, accorder à ChatGPT une confiance aveugle ?

IA et biais discriminatoires : la conception des algorithmes remise en question

Plusieurs IA antérieures à ChatGPT, ont révélé des biais discriminatoires. On se souvient de Google Ads et ses pubs de métiers hautement rémunérées proposées aux hommes plus qu’aux femmes, du chatbot Tay de Microsoft et ses propos racistes diffusés sur les réseaux sociaux ou encore de Facebook et son algorithme de recommandation de contenus assimilant des personnes noires à des singes. D’autres biais sociétaux, culturels, économiques, produits par des IA d’entreprises ont également été observés. Mais d’où viennent-ils ? De la conception des algorithmes et de la qualité et la quantité des données qui les alimentent. Ainsi, dès qu’un algorithme est entraîné sur des données réduisant la complexité d’un sujet ou intégrant les biais cognitifs d’un programmateur, ses conclusions s’appauvrissent. L’IA perd alors de son utilité. Combattre ces dérives passe donc par la prise de conscience des professionnels en charge de la conception de l’algorithme de leurs préjugés et par l’utilisation de jeux de données représentatifs de la réalité afin d’éviter toutes distorsions dans le processus d'entraînement de l’algorithme. 

Recourir à la diffusion des données partageables pour lutter contre les dérives des IA

En 2018, Cédric Villani, mathématicien et député, insistait sur l’enjeu de la donnée lors de son discours de présentation de son rapport sur l’IA : “Les données sont la matière première de l'IA contemporaine, et d'elles dépend l'émergence de nombreux usages et applications.” Les entreprises ont donc tout intérêt à s’engager dans une stratégie de mise à disposition de leurs données partageables (les données non personnelles et les données non confidentielles) à des fins de réutilisation mais aussi d’apprentissage des IA. En effet, faire le choix de ne pas utiliser la donnée extérieure réduit considérablement la richesse de ses analyses, une situation qui peut conduire à prendre de mauvaises décisions en termes de business, de R&D ou de relation clients. Côté diffusion, priver le marché de ses données partageables et donc de connaissance et d’objectivité ne permet pas de contribuer à la création d’IA de confiance. Mettre à disposition de tous ses données partageables est donc devenu un enjeu économique et de compétitivité pour l’ensemble de l’écosystème business français. Toutefois, une stratégie d’open data n’est pas sans impacter les SI des entreprises qui doivent être capables de protéger les données privées sensibles ou confidentielles et d’anonymiser les données partageables pour produire les données ouvertes tout en respectant le cadre légal de protection des données.

Aujourd’hui nous assistons à la montée en puissance de la production de données de synthèse. Créées via des algorithmes d’IA et à partir de data originales publiques ou anonymisées, ces données artificielles présentent les mêmes caractéristiques que les données d’origine. L’accélération du développement de l'IA conduit à la croissance de la production de ces données de synthèse, activité qui devient une discipline à part entière avec des métiers dédiés.

Si les entreprises affichent encore quelques craintes face à l’IA, les collaborateurs risquent fort, avec l’utilisation de ChatGPT dans leur vie privée, de faire entrer l’IA dans leurs activités professionnelles. Une situation qui ne serait pas sans rappeler celle du BYOD ou du shadow IT des années 2010. Aussi, les entreprises ont tout intérêt à accroître le volume de données disponibles afin d’être représentées dans les informations produites par les IA. Cette stratégie leur permettra d’utiliser des IA de confiance tout en étant présent dans le paysage informationnel numérique.