Comment faire émerger l'intelligence artificielle open source ?

Avec de plus en plus d'entreprises qui choisissent l'open source pour publier leurs modèles et accélérer l'innovation, peut-on dire que l'IA open source existe vraiment ?

Une question émerge dans le contexte de l’essor de l’intelligence artificielle (IA), plus particulièrement l’IA générative qui se construit sur les grands modèles de langage (LLM) : celle de s’appuyer sur un modèle open source pour ouvrir l’IA. C’est ce que font déjà certains acteurs, en choisissant un mode open source pour publier leurs modèles et ainsi accélérer l’innovation. Face à cette tendance, l’IA open source existe-t-elle vraiment ?

Dans le cas des modèles d’IA, leur fonctionnement est encadré par des « model weights » ou poids, ce qui les différencie des logiciels dont l’ensemble du code source est rendu accessible aux utilisateurs dans le cas de l’open source. De plus, les grandes quantités de données sur lesquels s’entraînent les modèles d’IA imposent certaines restrictions en raison de leur sensibilité ou de l’existence d’obligations réglementaires. Autant de contraintes qui peuvent rendre complexe l’application de principes d’accessibilité, comme c’est le cas pour les logiciels open source.

L’IA open source implique des conditions élémentaires

Dans le mode open source, qui prône le libre accès au code source de logiciels que partagent les membres d’une communauté, tout utilisateur peut apporter des modifications au code source et l’utiliser comme il le souhaite. Grâce à ce principe, les projets significatifs se sont multipliés et l’innovation, principalement collaborative, s’est vue stimulée, contribuant à développer des systèmes d’exploitation, des langages de programmation ou encore des serveurs web construits sur les contributions d’une multitude d’utilisateurs à travers le monde.

Appliquer ces avantages aux modèles d’intelligence artificielle est une perspective tentante. Il faut néanmoins tenir compte de l’existence de poids pour ces modèles, à la différence des logiciels.  Les poids sont un outil de pondération du comportement du modèle, et s’établissent en dérivation de l’entraînement massif des modèles avec des données disparates. Pour être utiles à l’innovation et aux développement des modèles d’IA, ils ont besoin d’être affinés grâce aux apports collaboratifs et aux diverses contributions possibles.

Les grands modèles de langage reposant sur des quantités considérables de données d’entraînement, contrairement à un logiciel dont le code source est généralement l’infrastructure fondatrice, se pose la question de l’hébergement et de  l’analyse de ces données dans leur intégralité. Il est également impossible de partager ces dernières de façon transparente, sans contrevenir aux limites fixées par la réglementation, à cause des contraintes de confidentialité dont elles font l’objet.

Les principes de transparence et d’accessibilité prônés par l’open source se voient alors contredits par un paradoxe : le fait que les communautés open source ne puissent pas accéder à toutes les données ni aux éléments qui ont permis de créer des poids, mais seulement aux poids eux-mêmes.

Rendre l’IA open source possible

Pour surmonter les contraintes techniques et réglementaires, sans sacrifier la réponse aux besoins des entreprises, il est possible de mettre à profit de nouveaux modèles sous licence open source, comme Granite d’IBM sous licence Opensource Apache V2, qui donnent accès à tous à certains éléments : les poids, qui déterminent le fonctionnement du modèle, le code, qu’il s’agisse des inférences de modèles ou des scripts d’exécution, qui permet de le déployer et de l’enrichir, et d’autres précisions sur les modes d’entraînement et données d’entraînement.

Certains modèles peuvent s’appuyer sur des licences dites hybrides pour ouvrir leur accès à tous, tout en conservant la protection des données. Cela peut être considéré, pour les plus experts, à une forme différente d’open source, puisque l’entraînement n’est pas transparent. Une approche plus pragmatique consisterait à dire que l’ouverture des poids et du logiciel sous-jacent suffit à alimenter la collaboration et l’innovation, notamment dans le domaine de l’affinement des modèles par la communauté, qui peut les adapter en fonction de différents scénarios.

Développer une gouvernance de l’IA open source, en prenant appui sur des fondations et consortiums définissant les bonnes pratiques et licences standards s’avère nécessaire pour aller plus loin dans le processus. En ce sens, le Conseil de l’Europe a organisé une Convention-cadre sur l’intelligence artificielle, qui aide à atténuer les risques de biais et de discrimination dans les modèles grâce à des outils réglementaires, des chartes éthiques, des documents d’audit ou des indicateurs de fiabilité, permettant ainsi de garantir la réussite des projets en matière d’IA au-delà de leur implémentation. Ces contributions soutiennent l’aspect long-termiste de l’IA et non simplement son image de technologie à la mode, et aident à installer les contours d’une IA plus sécurisée et fiable.

Un modèle peut être entraîné sans que ses données brutes ne soient révélées, avec des techniques de confidentialité différentielle. Cette technique rend possible une collaboration sur un modèle, sans que les données ne soient mises en danger. Il faut toutefois s’appuyer sur l’infrastructure du cloud hybride pour héberger et exécuter ces modèles en toute flexibilité. Les équipes peuvent ainsi mettre en commun leur puissance de calcul et leur expertise, tout en gardant le contrôle de leurs données sensibles et en contribuant à améliorer les modèles en continu, grâce à la combinaison entre des environnements et ressources sur site et sur les clouds.

De nombreuses contraintes réglementaires s’appliquent aujourd’hui à  l’IA « open source », qui offre aux utilisateurs et aux chercheurs une marge de manœuvre utile pour analyser, affiner et réutiliser les modèles, en partageant les poids et le logiciel sous licence libre.

Néanmoins, ce modèle d’ouverture partielle paraît insuffisant au regard d’exigences de transparence de l’open source. Aussi, de nouveaux cadres de gouvernance émergent afin de renforcer la transparence et la collaboration, comme la standardisation des licences ou la mise en place de labels de confiance. Afin de mieux distribuer l’IA et de la rendre plus responsable, le cloud hybride apparaît comme un pilier sur lequel s’appuyer, en raison de sa flexibilité et de sa capacité à concilier souveraineté des données et innovation rapide.

Il est indispensable, pour les entreprises qui souhaitent s’ouvrir le plus possible afin de réduire leur dépendance technologique à un fournisseur de modèle, tout en renforçant leur réelle autonomie stratégique, de se montrer vigilantes sur ces points spécifiques.