OpenChat : un sérieux concurrent open source à ChatGPT

Le modèle introduit une nouvelle méthode d'apprentissage par renforcement. Résultat : des performances qui dépassent celles de ses équivalents open source, et qui flirtent avec celles de ChatGPT génération GPT-4.

Après Falcon, Llama et Mistral, un nouveau venu fait son apparition sur le terrain des large language model (LLM) open source. Il s'agit d'OpenChat. Développé par Alignment Lab AI, un laboratoire issu de l'université Tsinghua de Shanghai, il est publié sous licence Apache 2.0. Dévoilé en novembre 2023, il revendique des performances globalement équivalentes à la première version de ChatGPT reposant sur GPT-4. Une version sortie en mars 2023. C'est un véritable tour de force qui place OpenGPT bien au-dessus de tous ses concurrents open source.

En coulisses, OpenChat améliore la méthode d'apprentissage par renforcement utilisée par ChatGPT, Bard et leurs équivalents. Historiquement, ces assistants évitent de recourir au fine-tuning supervisé ou supervised fine-tuning (SFT) dans la mesure où ce dernier ne distingue pas les niveaux de qualité qui peuvent apparaître dans les données d'entrainement. Mélanger des informations factuellement incorrectes aux données de formation peut évidemment conduire à des erreurs dans les résultats, ou hallucinations.
Pour pallier au déficit du SFT, les chercheurs de Google et d'OpenAI se sont tournés vers le RLHF, pour reinforcement learning from human feedback. Cette méthode applique l'apprentissage par renforcement à la prise en compte de feedbacks humains. Principal contrainte : elle doit reposer sur l'utilisation de données de haute qualité, à la fois coûteuses en énergivores en temps de traitement. Face à cette problématique, les chercheurs de l'Alignment Lab AI ont introduit ce qu'ils appellent le C-RLFT, ou conditioned reinforcement learning fine-tuning.

Le RLFT traite différentes sources de données en utilisant des signaux de récompense de grande granularité. Ce qui lui permet de mixer plus facilement des données d'entrée à la fois de haute et de basse qualité tout en étant capable de les différencier. Le C-RLFT simplifie le processus d'entrainement en éliminant les méthodes de reinforcement learning trop complexes impliquant notamment de gros volumes de données étiquetées par des humains.

Au final, le RLFT permet à OpenChat d'afficher des performances à l'état de l'art, se rapprochant de celles des dernières versions des LLM propriétaires les plus avancés.