Thomas Wolf (BigScience) "BigScience sera le plus gros modèle de machine learning open source jamais créé"
Initié en France, le projet vise à développer un réseau de neurones artificiel orienté traitement automatique du langage comptant 176 milliards de paramètres. C'est plus que le GPT-3 d'OpenAI.
JDN. Quel est le but du projet BigScience ?
Thomas Wolf. Depuis un an et demi, on a vu se multiplier les très gros modèles de deep learning. Pourquoi ? Parce qu'on s'est rendu compte que ces modèles étaient beaucoup plus performants. Cette tendance s'illustre typiquement à travers GPT-3 qui compte 175 milliards de paramètres. Ce mouvement est né de la conjonction de deux tendances. D'abord, l'avènement des architectures type Transformer qui gèrent le passage à l'échelle de réseaux de neurones de très grandes tailles et leur entrainement sur des data sets massifs. Ensuite, la montée en puissance du transfert learning qui permet d'entrainer ces modèles génériques sur des data sets de plus petite taille pour les spécialiser sur des tâches spécifiques.
Ce double mouvement s'est traduit par une concentration de ces mégamodèles entre les mains d'une poignée d'acteurs possédant la puissance pour les entrainer : DeepMind (filiale de Google, ndlr), Meta, Microsoft, OpenAI, Tencent... Or, ces acteurs ne partagent pas leurs modèles. Idem pour toute une myriade de start-up d'IA qui s'inspirent de cette logique propriétaire. Résultat : la recherche académique se retrouve exclue de ce champ de recherche. Sans compter des problématiques qui sont passées sous silence, autour de l'éthique, de la représentativité des données… Un ensemble de domaines qui font appel à des compétences sociologiques, ethnographiques, qui vont bien au-delà des mathématiques de l'entrainement, et que les groupes impliqués ne possèdent pas. Ce qui se traduit par le déploiement de modèles entrainés sur des data sets qui ne sont pas exsangues de stéréotypes.
Prenant le contrepied de cette tendance, BigScience a pour ambition de créer un modèle de NLP de grande taille, comptant pas moins de 176 milliards de paramètres. Un modèle qui soit en même temps open source dans l'optique de l'ouvrir à l'ensemble de la communauté scientifique. BigScience sera le plus gros modèle de machine learning open source jamais créé.
Mais comment faire en sorte qu'un tel modèle dit LLM (ou large language model) soit accessible au plus grand nombre, et notamment portable sur des machines de moindres capacités ?
Nous sommes en train de développer des techniques pour utiliser le modèle BigScience sur des stations de calcul relativement petites, basées sur des architectures de huit GPU voire moins. Cela passera notamment par un découpage du modèle et son chargement progressif sur les GPU. Evidemment, l'exécution sera plus lente, mais cela permettra quand même à la communauté d'y avoir accès. Le modèle pèsera environ 300 Go.
Le modèle BigScience est multilingue. C'était un autre objectif du projet ?
Nous visons 46 langues. Dans cette perspective, nous avons mis sur pied un data set de très grande taille à la fois multilingue et de qualité. Alors que les data sets des grands modèles de NLP existant sont constitués à partir de données scrappées sur internet, celui de BigScience s'est appuyé sur le travail de plusieurs centaines de contributeurs à travers le monde, issus de 90 universités et laboratoires de recherche. Ils ont soumis des sources de données qualifiées dans chacune des langues et cultures visées, qui sont venues nourrir le set d'apprentissage.
"1 000 chercheurs à travers le monde collaborent pour la première fois sur un modèle d'IA"
Nous nous inspirons de projets de collaboration internationaux qui ont fait leur preuve, comme l'accélérateur de particules du CERN. A travers le projet BigScience, 1000 chercheurs à travers le monde collaborent pour la première fois sur un modèle d'IA.
Quelle est la place de la lutte contre les biais dans le projet BigScience ?
Il faut bien comprendre qu'il est impossible d'étudier les biais qui apparaissent dans les modèles de grande taille si les chercheurs ne peuvent avoir accès à ces modèles. C'est l'un des objectifs de l'initiative BigScience que de faciliter cette étude en publiant un LLM multilingue open source. Au sein du projet, un groupe de 150 chercheurs travaille déjà sur l'évaluation des biais sexistes, raciaux, ainsi que l'évaluation éthique qui est un domaine encore assez peu couvert. Ce groupe est en train de préparer des outils et des data set spécifiques pour tester le modèle.
Dans le cadre du projet BigScience, nous avons en outre déjà réalisé une première mondiale dans ce domaine en filtrant les informations personnelles identifiables au sein de notre data set d'apprentissage. Evidemment, nous n'avons pas résolu toutes les problématiques éthiques de l'IA. Mais cette initiative représente néanmoins une avancée.
Comment adressez-vous la problématique éthique dans une approche d'IA multilingue ? L'éthique peut être différente selon les pays…
La morale et l'éthique varient en effet selon les cultures. Est-ce qu'on impose une moralité anglo-saxonne par exemple, ce qui est la tendance des modèles américains ? Ou essaie-t-on de tendre vers une pluralité de valeurs représentatives de chaque pays dans les prédictions. C'est la piste que nous explorons. La sensibilité à la parité entre les sexes va par exemple varier selon les cultures. Cette différence transparait donc de facto dans les écrits de chaque culture et par conséquent dans les sources correspondantes utilisées pour concevoir notre data set. Finalement, elle transparaitra dans les prédictions du modèle final. C'est une question très importante, mais encore très peu explorée.
"Le supercalculateur Jean Zay a bénéficié d'une extension de 400 processeurs d'accélération graphique pour le projet BigScience"
Mais la question se pose aussi au sein d'une même langue. Prenons l'exemple des Etats-Unis. Si on demande au modèle de résumer des articles d'actualité, et si ce modèle a été principalement entrainé sur des articles de Fox News, est-ce qu'il n'aura pas tendance à rédiger ses synthèses avec un point de vue de droite, voire d'extrême droite, de notre point de vue d'Européen. Si on veut utiliser ces modèles dans les applications de tous les jours, il faut pouvoir comprendre quel biais ils nous renvoient involontairement. Ce débat rejoint les débats autour de Facebook et de la question de savoir si ses algorithmes de recommandation n'ont pas tendance à favoriser les extrêmes.
Pour entraîner le modèle BigScience, vous utilisez l'infrastructure Jean Zay, l'un des supercalculateurs convergés les plus puissants d'Europe, qui est installé à l'IDRIS, le centre national de calcul du CNRS. Cette machine a-t-elle été adaptée pour votre projet ?
Le supercalculateur Jean Zay a bénéficié d'une extension de 400 processeurs d'accélération graphique pour le projet BigScience. Nous avons un accès exclusif à cette puissance de calcul pour réaliser l'entrainement du modèle pendant trois mois. Cette étape vient tout juste de débuter et peut être suivie par le biais d'un TensorBoard que nous mettons à disposition. Au terme de cette phase, cette puissance de calcul sera disponible pour l'ensemble de la communauté scientifique. Dans une logique de transparence, nous allons par ailleurs mettre en place un dispositif de suivi public de l'entrainement au fil de l'eau. Et dès que le modèle sera capable de réaliser des prédictions de marché, nous les partagerons.
Quelle est l'architecture du modèle BigScience ?
C'est un réseau de neurones Transformer très simple, de type decoder only. L'ensemble des langues sont fédérées dans un data set unique sur lequel le modèle apprend. Compte tenu de sa grande taille, il distingue par lui-même les langues les unes des autres. De la même manière qu'une personne qui grandit dans un environnement polyglotte identifie les langues de manière naturelle sans qu'on soit obligé de lui indiquer les différences entre chacune.
On rentre dans l'inconnu sur la manière dont il va réagir car personne jusqu'ici n'a entrainé un réseau de neurones artificiels multilingue aussi gros. Par exemple est-ce qu'il sera capable de traduire un texte sans pour autant qu'on lui ait expliqué ce qu'est une traduction ?
Quels seront les principaux cas d'usage du modèle BigScience ?
Au-delà de la traduction, il sera capable de réaliser de la synthèse de texte, de répondre à une question, voire d'exécuter des tâches à partir d'une explication de ce qu'on attend de lui. Plus simplement, il pourra gérer de la classification de texte en répondant à des questions : est-ce que ce contenu est positif ou négatif ? Est-ce qu'il s'agit d'un article qui porte sur la politique ou sur le sport ?
"Nous comptons laisser le modèle utilisable de manière large via une licence très ouverte sur le modèle d'Apache"
S'ils sont puissants en termes de précisions, on ne sait pas pour autant comment ce type de gros modèle fonctionne. Du coup, même s'ils permettent potentiellement de nombreux cas d'usage, on ne sait pas s'ils seront applicables à tous. Par exemple les utiliser dans le cadre d'un chatbot de santé avec potentiellement des vies humaines en jeu ne semble pas une bonne idée compte tenu de la faible maitrise que nous avons de leur mode de fonctionnement. D'où l'idée encore une fois, via BigScience, de nous doter d'un LLM ouvert destiné à la recherche scientifique fondamentale.
Quel type de licence open source allez-vous proposer ?
Nous comptons laisser le modèle utilisable de manière large via une licence très ouverte sur le modèle d'Apache. Nous développerons néanmoins une licence spécifique pour interdire certains usages. Typiquement, il s'agira d'usages liés aux armes autonomes ou à la surveillance de masse, que l'on considère comme éthiquement opposés à la charte éthique du projet BigScience.
Thomas Wolf est co-lead du projet BigScience et chief science officer chez HuggingFace, une start-up française qui a pour ambition de devenir le GitHub du machine learning. Le projet BigScience est issu des échanges entre Thomas Wolf, Stephane Requena (Genci) et Pierre-François Lavallée (Idris). Thomas Wolf est diplômé de l'école Polytechnique et titulaire d'un doctorat en statistiques et physique quantique à l'université Pierre et Marie Curie.