Hanan Ouazan (Artefact) "Ce qui manque à l'IA générative pour être acceptée, c'est un système équivalent au management humain"
L'associé de la société de conseil en data et en IA détaille les enjeux de fiabilité des plateformes d'IA générative, et revient les bonnes pratiques qui en découlent.
JDN. Quels sont les principaux défis de l'IA générative en matière de fiabilité ?
Hanan Ouazan. La fiabilité représente le défi le plus courant et le plus important. Depuis son avènement lors du lancement de ChatGPT en novembre 2022, la GenAI a contribué à démocratiser l'IA à travers des interfaces simples et accessibles au plus grand nombre. Ce phénomène à contribuer à multiplier les déploiements et les usages dans nombre d'entreprises, et à créer un trafic d'utilisateurs massif, y compris issu du grand public.
Partant de là, imaginez l'assistant d'une banque qui se mettrait à halluciner en fournissant au client un RIB qui n'est pas le bon, ou encore un chatbot d'un site d'e-commerce poussant un pricing erroné. L'expérience s'en trouverait dégradée et la confiance des utilisateurs atteinte. Le commun des mortels s'attend à ce que la GenAI soit fiable. Sa réponse engage la responsabilité de l'entreprise. D'où ce besoin crucial de fiabilité.
Comment les entreprises peuvent-elles garantir une IA générative fiable ?
Elles y parviennent à travers deux actions. Cela passe d'abord par un travail de red teaming qui consiste à s'assurer que l'IA générative répond correctement aux questions. Cette méthode consiste à pousser l'IA dans ses retranchements. Vous avez par exemple conçu une IA générative qui permet de répondre aux questions de vos clients. Vous définissez un jeu de 100 questions emblématiques de ce que les clients peuvent demander à votre chatbot. Vous les injectez dans l'IA et récupérez les réponses. Vous faites ensuite analyser ces réponses par des experts qui vont valider ou invalider leur pertinence. En fonction du résultat, vous allez améliorer votre IA. La Gen AI aura pu se tromper pour plusieurs raisons : une fiche produit qui n'est pas à jour, une hallucination, une mécompréhension dans les questions... En fonction du diagnostic, vous allez ajuster le modèle pour obtenir un taux de qualité satisfaisant en fonction de la criticité de l'application ciblée.
"L'open source est très avantageux pour fine tuner les modèles de langue"
Ensuite, une fois les systèmes d'IA générative mis en production, ils évoluent dans le temps. Du coup, il va falloir monitorer ces environnements en permanence. Sans quoi les performances se dégraderont. Il est donc recommandé de mettre en place des capteurs et des sondes qui vont analyser en continu ce que l'IA répond à l'utilisateur et récupérer ses feedbacks. In fine, l'objectif est de s'inscrire dans une logique incrémentale d'amélioration continue. L'idée est de s'assure de garder le cap en détectant les nouveaux problèmes et nouveaux paterns qui apparaîtront, dans l'optique d'optimiser le chatbot au fil de l'eau et d'éviter les dérives. C'est ce qu'a fait OpenAI avec ChatGPT en intégrant les feedbacks des utilisateurs au fil des réponses.
En quoi l'open source va permettre de sécuriser une IA générative ?
Les modèles open source sont déployables en local au sein de votre système d'informations. Ils permettent d'opérer l'ensemble des traitements des chatbots correspondants en interne. Dans ce cas de figure, vous n'êtes pas tributaire d'un acteur externe. Vous n'avez pas à échanger de données avec l'extérieur. Au final, cela vous évite de dépendre d'un tiers en matière de sécurité. Et cette politique technologique vous rend également étanche aux réglementations extraterritoriales tel le Patriot Act américain.
Qu'apporte l'open source en matière de fiabilité des modèles de GenAI ?
L'open source vous permet d'accéder au code source. Ce qui est très avantageux en matière de modèles de langue. Car si un large language model est open source, vous allez pouvoir le fine tuner sans être confronté à l'effet boîte noire des modèles propriétaires. L'open source vous donne les clés du camion. En cas de problème ou de besoin d'optimisation, à vous ensuite d'aller investiguer pour trouver la solution.
La grande majorité des modèles de langues open source reposent sur d'autres modèles de langue eux-mêmes open source. Ce qui prouve bien la capacité de personnalisation de cette stratégie technologique.
Que diriez-vous aux septiques qui doutent de la fiabilité de l'IA générative ?
Je leur dirais qu'ils ont raison. La fiabilité de la GenAI n'est pas encore établie. Partant de là, ce qu'il faut bien avoir en tête, c'est que l'être humain n'est pas non plus fiable à 100%. Quand vous appelez le centre d'appels de votre opérateur téléphonique, la réponse qui vous ai donnée peut être fausse. De la même manière qu'on est prêt à accepter le manque de fiabilité des humains dans nombre de tâches, car nul n'est parfait, on doit aussi poser le cadre de confiance que l'on demande à l'IA générative.
Comment les entreprises prennent-elles en compte le manque de fiabilité de leur collaborateur ? Via le management qui permet de responsabiliser les différents échelons les uns vis-à-vis des autres. Si les échelons du bas ne sont pas fiables, une chaîne de responsabilité permet de faire remonter les dysfonctionnements à l'échelon supérieur pour prendre les décisions qui s'imposent. Dans l'IA générative qui, comme on l'a vu n'est pas 100% fiable, il est important dans la même logique de mettre en place une chaîne de monitoring, d'observabilité et in fine de décision qui permet dans le cas où l'IA ne s'avérerait pas fiable de ne pas prendre les résultats pour argent comptant. Ce qui manque à l'IA pour être accepté, c'est un système équivalent au management humain qui permet de pallier au manque de fiabilité et surtout de disposer de protocole de réaction quand la fiabilité n'est pas au rendez-vous.
Comment ce management de l'IA générative pourrait-il se traduire concrètement ?
Il implique trois couches. D'abord la couche d'observabilité qui permet de visualiser les réponses de la GenAI. Ensuite la couche d'évaluation qui permet de mesurer leur performance. Et, enfin, la couche de supervision qui permet de prendre des décisions. Ce sont ces trois couches, qui représentent l'équivalent du management côté humain, qu'il faut mettre en place dans l'IA générative.
Hanan Ouazan est associé depuis 10 ans au sein du cabinet de conseil français en data et IA Artefact. Il est en charge de manière transverse de l'intégralité des offres en matière d'intelligence artificielle. Précédemment, il a notamment été data analyst chez AlmondNet et data scientist chez Augusta Consulting. Il a également co-fondé Riminder, une start-up qui s'est donné pour ambition de mettre l'IA au service du recrutement.