Qu'attendre de Villers-Cotterêts, futur hub de données pour franciser les modèles d'IA ?

Porté par la Dinum, le projet Villers-Cotterêts vise à constituer une plateforme complète de données francophones taillées pour l'IA. L'initiative devrait commencer à voir le jour d'ici la fin de l'année.

En discussion depuis plusieurs années, le projet Villers-Cotterêts commence à se concrétiser. Evoquée depuis longtemps par le secteur public, la constitution d'un hub de données francophone à destination de l'IA a fini par être officialisée en décembre 2023. Six mois après, les travaux avancent du côté de la Dinum et des administrations partenaires. Une feuille de route un peu plus précise se dessine. Dataset francophone, données pour du RLHF… Le projet Villers-Cotterêts, du nom du château où François 1er signa l'ordonnance rendant le français langue officielle, devrait intéresser les entreprises et professionnels qui utilisent chaque jour des LLM ou des modèles de NLP.

Une ambition : franciser les grands modèles de langage

Tout part d'un constat assez simple : la majorité des LLM commerciaux et open source du marché sont formés avec en moyenne moins de 0,2% de données françaises. Un manque de diversité francophone qui pose un certain nombre de limites. A commencer par un manque de diversité linguistique, encore palpable aujourd'hui dans les principaux modèles. "Si vous demandez à ChatGPT de composer un poème en anglais, il produira des vers qui riment bien et respectent les règles rythmiques de la poésie anglophone. En revanche, si vous lui demandez d'écrire un sonnet en français, vous constaterez que le résultat est moins bon. Il ne maîtrisera pas nécessairement l'usage exclusif des alexandrins", illustre Benoît Sagot, responsable de l'équipe ALMAnaCH en charge du traitement automatique des langues au sein de l'Inria (Institut national de recherche en sciences et technologies du numérique). L'Inria qui est directement impliquée dans le projet Villers-Cotterêts.

Pour le chercheur, parallèlement aux biais linguistiques, la faible présence du français pose également des biais culturels : "Sur certains sujets, on constate un système de valeurs implicitement imposé. Cela reflète une forme d'impérialisme culturel démocratique californien qui ne correspond pas toujours à ce qu'on considérerait comme neutre en France."

Villers-Cotterêts, une plateforme multi-ressources

Face au manque de données francophone, le projet Villers-Cotterêts envisage de mettre à disposition une grande variété de ressources numériques en français, mais pas uniquement. "L'idée est de rassembler des données en langue française et dans les autres langues de France également (les langues régionales, ndlr) en un lieu unique où elles seront accessibles et exploitables. A terme, notre ambition est de créer une ressource linguistique riche et variée, représentative de la diversité linguistique de la France", explique Benoît Sagot. Ces données mises à disposition pourront servir directement à l'entrainement de nouveaux modèles ou à l'affinage de modèles existants.

Très concrètement, le hub de données devrait s'axer autour d'un sous-projet nommé LANGU:IA, qui se déclinera lui-même en deux sous-projets. Le premier vise à constituer une base de données de jugements humains sous forme de préférence entre plusieurs réponses de LLM. Le but est de constituer une base de données assez grande pour être utilisée, par exemple, pour du RLHF (reinforcement learning from human feedback). "Notre objectif est de collecter un volume important de jugements humains, car plus nous en avons, meilleure sera la qualité de nos modèles conversationnels", insiste le chercheur. Les données pourraient provenir directement des retours des agents publics utilisant des solutions d'IA générative dans le cadre de leur travail. Pour rappel, le ministère de la Transformation et de la Fonction publique a déployé plusieurs versions de son IA Albert dans diverses administrations publiques.

Plusieurs datasets francophones publiés

En parallèle de la base de données conçue à partir des préférences humaines, le projet LANGU:IA prévoit la publication de plusieurs datasets de données francophones, textuelles dans un premier temps, utilisables pour le fine-tuning et la constitution de LLM. "L'un de mes objectifs principaux est de rassembler le plus grand nombre possible de données légalement utilisables. Cette collecte pourrait inclure une variété de sources, allant des contenus libres de droits comme Wikipédia aux œuvres littéraires tombées dans le domaine public, en passant par divers types de contenus pour lesquels nous pourrions obtenir les droits d'exploitation, notamment le droit d'utiliser ces données pour entraîner des modèles de langue", précise Benoît Sagot.

Pour mener à bien cette collecte de données, les équipes du projet LANGU:IA négocient depuis plusieurs mois la permission d'utiliser des "silos de données" issus de plusieurs grandes administrations françaises. Des discussions complexes et lentes au regard de la criticité de la question du droit d'auteur dans l'entrainement des IA. "L'objectif est également de rechercher des données de haute qualité. Deux exemples illustrent cette démarche. Premièrement, les cours du CNED représentent un contenu de grande valeur. Bien que la propriété intellectuelle appartienne aux enseignants qui les ont rédigés, des discussions préliminaires laissent entrevoir la possibilité de les rendre accessibles pour l'entraînement des modèles de langue. Deuxièmement, France Télévisions fait transcrire certaines de ses émissions. Bien que le statut juridique précis de ces transcriptions reste à clarifier, des réflexions sont en cours pour envisager leur mise à disposition à grande échelle", illustre le spécialiste de l'Inria.

Plus qu'un hub de données, un pole d'expertise

L'objectif final du hub de données de Villers-Cotterêts est de rendre facilement accessible toutes les ressources francophones nécessaires aux entreprises, notamment aux start-up qui souhaitent affiner et/ou créer des modèles. Bien que le tableau final ne soit pas encore bien défini, le projet pourrait aller au-delà de la simple mise à disposition de ressources. Des discussions autour de la possibilité de former des ingénieurs spécialisés en NLP pour les adresser aux entreprises en demande sont en cours. Le hub de données pourrait ainsi se transformer en un véritable pôle d'expertise sur le traitement automatique du langage en français. Villers-Cotterêts pourrait même, à terme, s'implémenter dans l'ALT-EDIC (consortium pour l'infrastructure numérique européenne de l'Alliance pour les technologies langagières) de l'UE.

Au vu de la complexité administrative et du nombre d'administrations impliquées dans le projet Villers-Cotterêts, aucune date officielle de lancement pour la plateforme n'a été communiquée. Benoît Sagot s'attend cependant à ce que la première mouture du projet LANGU:IA (les préférences humaines) aboutisse avant la fin de l'année. Pour la seconde partie (les datasets francophones), le temps dépendra directement du délai nécessaire aux négociations sur l'utilisation des données.