Shadow AI : connaître les risques, identifier les solutions

Le shadow AI présente de nouveaux dangers non négligeables pour les entreprises. De bonnes pratiques permettent de les limiter drastiquement.

A l'heure du tout IA, il ne faut pas oublier la sécurité des données. Productivité boostée, facilité d'utilisation, accessibilité… En 2023, l'IA générative n'a épargné quasi-aucune entreprise. Avec l'avènement de ChatGPT en novembre 2022, de nombreux collaborateurs ont sauté le pas et se sont mis à utiliser des outils d'IA générative tiers dans le cadre de leur activité professionnelle. Une utilisation qui, si elle n'est pas régulée, peut conduire à de nombreux risques pour les entreprises concernées. Pour éviter d'exposer son activité, il existe en 2024 une flopée de bonnes pratiques à mettre œuvre dans son organisation.

Véritable branche du shadow IT, le shadow AI désigne l'utilisation par les collaborateurs d'une entreprise d'outils et de service d'intelligence artificielle non contrôlés ou tout du moins supervisés par le secteur IT. Nicolas Gaudemet, Chief AI Officer chez Onepoint, estime que quinze à vingt pourcents des employés au sein d'une entreprise classique peuvent être tentés de recourir à un outil d'IA externe non contrôlé.

Du risque réputationnel au risque juridique

Le principal risque pour la société reste l'exfiltration de données vers l'extérieur. "Quand les employés envoient des données à ChatGPT, ce dernier enregistre les requêtes dans l'historique de l'utilisateur. ChatGPT peut être piraté, et il y a déjà eu des problèmes techniques chez OpenAI où l'historique d'autres personnes a été divulgué accidentellement", rappelle le spécialiste. Une fuite qui, selon la nature des données, peut poser un danger structurel pour la société. "Des informations sensibles sur les processus, les clients ou les produits de l'entreprise peuvent être transmises involontairement à ces outils grand public. Cela représente un risque de fuite de propriété intellectuelle pour l'entreprise."

Mais le plus grand risque est celui de nourrir les futurs modèles avec les données de l'entreprise. Pour rappel, lorsque ChatGPT enregistre l'historique dans sa version gratuite, les utilisateurs lui donnent l'autorisation d'utiliser cet historique pour entraîner les futures versions des modèles. "Ainsi, GPT-4 Turbo a probablement été en partie entraîné sur les requêtes provenant des versions précédentes de ChatGPT. Par conséquent, si un modèle de ChatGPT a été entraîné sur des historiques contenant des informations confidentielles, il est possible que lorsqu'on pose une question similaire à une conversation antérieure, le modèle régurgite des informations confidentielles", rappelle l'AI chief de Onepoint.

L'autre grand risque s'articule autour du juridique. D'une part, si des données personnelles sont transmises aux outils d'IA sans le consentement de leur propriétaire, l'entreprise enfreint directement le RGPD. Peut s'en suivre une amende lourde et une perte de réputation pour l'entreprise incriminée.

Le second danger juridique va concerner directement les productions de l'entreprise. "Les outils d'IA générative comme ChatGPT ou Midjourney sont entraînés sur de vastes corpus de données, qui peuvent inclure des contenus protégés par le droit d'auteur. Si un employé utilise ces outils pour générer du contenu, l'entreprise peut être poursuivie pour violation de droits d'auteur, même si elle n'était pas au courant", prévient Nicolas Gaudemet.

Les fausses bonnes solutions

Comment répondre avec pragmatisme aux dangers du shadow AI ? Premièrement en évitant les fausses bonnes solutions. Bloquer l'accès à l'ensemble des services d'IA aux collaborateurs n'est pas la clé. D'un part, le blocage système par DNS (ou autres techniques) n'est pas viable car il existe de nombreux moyens de contourner les blocages. D'autre part, les services d'IA se multipliant chaque jour, il serait complexe de dresser une blacklist exhaustive continuellement à jour. Enfin, les entreprises qui opteraient pour cette solution, en apparence simple, s'exposeraient au risque d'être rapidement "dépassé par des concurrents qui ont mis en place des solutions d'IA génératives. Une telle mesure se ressent dans la productivité : c'est assez dangereux d'un point de vue stratégique", rappelle avec justesse Nicolas Gaudemet.

L'autre fausse bonne solution pourrait être de laisser ses collaborateurs utiliser des systèmes d'IA open source en ligne non conçus pour les entreprises (exemple : Hugging Chat). En plus du risque inhérent aux données stockées sur des serveurs tiers, le fait même que les échanges transitent par le web est une faille majeure : le chiffrement et l'authentification entre le navigateur et le serveur ne sont, pas souvent, de qualité entreprise (OAuth, chiffrement multicouche, TLS…). Un attaquant pourrait plus ou moins facilement parvenir à obtenir les données échangées.

Prendre des licences ou développer son chatbot d'entreprise

Il n'existe aucune solution universelle pour répondre au défi du shadow AI. Selon le nombre de collaborateurs de l'entreprise et la sensibilité des données, il peut être intéressant d'opter pour un achat groupé de licences ou le développement d'un chatbot interne.

La première solution est la plus simple à mettre en place. Copilot pour 365 chez Microsoft, Gemini pour Workspace chez Google, ChatGPT Enterprise chez OpenAI… Les solutions propriétaires de qualité entreprise sont légion et offrent une mise en place rapide et simplifiée. En revanche, le coût peut rapidement devenir conséquent. Sans parler de la confidentialité des données. Si des informations très sensibles doivent être échangées, il sera préférable d'éviter l'utilisation de services en ligne. Un récent article émanant de l'offensive AI research lab de l'université Ben Gourion a démontré que même si les paquets entre le serveur (d'OpenAI ou de Microsoft par exemple) et le client (navigateur web) étaient chiffrés, il est possible de déchiffrer une partie des textes échangés (prompt et dataset). "Si un attaquant parvient à récupérer la longueur des mots plutôt que les mots eux-mêmes, il peut potentiellement reconstituer le texte d'origine avec une forte probabilité. Cela est possible car les modèles de langage fonctionnent en flux, c'est-à-dire qu'ils envoient les mots les uns après les autres", explique Nicolas Gaudemet.

Ainsi, pour des besoins de confidentialité ou pour des raisons de coût, il peut être préférable de développer son propre chatbot IA d'entreprise. Une solution pérenne qui trouvera sa rentabilité (selon les cas d'usage) à partir de plusieurs centaines d'utilisateurs. Qu'il soit propriétaire ou open source, doté de 3, 7 ou même 100 milliards de paramètres, le choix d'un modèle d'IA doit se faire de manière réfléchie et informée. Selon la vitesse, le cas d'usage, le besoin de fine-tuning plusieurs modèles peuvent être envisagés. Nous vous recommandons de lire l'un de nos derniers articles sur le sujet : quelle stratégie d'IA adopter pour ses projets ?