Llama 2 Long, le petit dernier de Meta qui challenge GPT-3.5

Llama 2 Long prend en entrée un contexte beaucoup plus important que la version originale du modèle de Meta. L'IA surpasse GPT-3.5 sur une majorité de tâches nécessitant de longs contextes.

Meta maintient son avance en matière d'intelligence artificielle open source. Fin septembre, des chercheurs du groupe ont présenté le papier de recherche de Llama 2 Long, une version de Llama 2 entraînée de manière continue à partir des poids (valeurs numériques qui déterminent l'importance des connexions entre les neurones du réseau) de Llama 2 et dotée d'une capacité à traiter des contextes bien plus longs. Bien que la nouvelle soit passée relativement inaperçue, le succès d'un tel projet rehausse encore le niveau des grands modèles de langage à long contexte. Llama 2 Long est le premier modèle open source à démontrer des capacités comparables aux meilleurs modèles propriétaires sur une grande variété de tâches nécessitant de longs contextes. Des améliorations sont obtenues à la fois sur les tâches courtes et longues.

Un contexte de 32 768 tokens

Pour rappel, dans le champ lexical général des LLM, le contexte définit, de manière simplifiée, la longueur des informations soumises en entrée dans le modèle. Dans le cas des modèles optimisés pour le chat, c'est donc la longueur du prompt adressé en entrée. Or, le contexte permet de préciser de manière plus longue et précise une consigne. Selon les données de l'article, plus le contexte est long, meilleure sera la sortie de Llama 2. Le modèle parvient en réalité à prédire avec plus de précision la suite du texte.

Pour rappel, les versions actuelles de Llama 2 supportent jusqu'à 4 093 tokens, soit environ 1 000 à 3 000 mots (en anglais). La version développée par les chercheurs de Meta s'affiche quant à elle à 32 768 tokens, soit environ 15 à 20 000 mots. Selon les données présentées dans le papier, Llama 2 Long pourrait encore s'améliorer si on lui fournissait des contextes encore plus longs que 32K.

Modèle	Taille maximale du contexte en entrée
Llama 2 classique	4 096 tokens
Llama 2 Long	32 768 tokens

Allonger la fenêtre de contexte d'un modèle permet non seulement d'améliorer sa prédiction mais également la gestion des tâches plus complexes. Les chercheurs de Meta citent des cas d'usage de plus en plus demandés, à l'image de "l'analyse de documents denses et riches en connaissances, l'alimentation d'expériences de chatbots plus authentiques et engageantes, et l'aide aux utilisateurs humains dans des processus de création itératifs comme la programmation et le design."

Réduction des coûts et du temps d'entraînement

Plus qu'un modèle open source à grand contexte, Llama 2 Long se distingue également par sa méthode d'entraînement. Pour parvenir à obtenir un contexte aussi développé et une meilleure accuracy, les chercheurs de Meta ont entraîné Llama 2 par "continual pretraining", c'est-à-dire un réentraînement prolongé à partir des poids existants de Llama 2. En d'autres termes, les chercheurs ont continué à ajuster et à améliorer les connaissances déjà acquises par le modèle pour le rendre encore plus précis et performant. L'entraînement s'est fait sur des séquences très longues (jusqu'à 32 768 tokens). L'architecture de Llama 2 n'a été que très légèrement modifiée pour permettre le traitement de ces longues séquences.

Cette méthode s'est révélée plus efficace et moins coûteuse que l'entraînement from scratch sur de longues séquences. Les experts de Meta estiment la réduction des coûts à près de 40% à une approche from scratch (en partant de zéro). En parallèle, cette méthode a le mérite de réduire le temps d'entraînement.

Aussi économe qu'efficace, la méthode est approuvée après plusieurs benchmarks poussés. Les résultats sont sans appel : Llama 2 Long surpasse Llama 2 sur la majorité des tâches courtes, avec des gains significatifs en programmation, mathématiques et en connaissances. Il obtient de meilleurs résultats que GPT-3.5 sur des tâches comme MMLU (benchmark qui teste la compréhension du langage mathématique) et GSM8K (8 000 problèmes mathématiques de niveau primaire/collège que le modèle doit résoudre automatiquement). Enfin, Llama 2 Long surpasse tous les autres modèles open-source existants (Focused Transformer, YaRN, Xgen, etc) sur les tâches de question / réponse et de résumé nécessitant de longs contextes.

Dans le tableau ci-dessous, Llama 2 Long surpasse GPT-3.5-turbo-16k sur 7 tâches sur 10 et obtient le 2e meilleur score moyen derrière GPT-4. La star d'OpenAI continue donc de briller, fort d'un nombre de paramètres largement supérieur à Llama 2 et, très certainement, de données annotées coûteuses potentiellement de meilleure qualité.

LLama 2 Long meilleur que GPT-3.5 sur certaines taches. © Meta

Bien que Llama 2 Long signe une petite révolution dans le domaine des LLM à grand contexte, Meta n'a toujours pas communiqué sur la sortie potentielle du modèle, ni sur son caractère open source. Dans l'attente de nouvelles de la part du géant américain, de nombreux chercheurs de la communauté open source recommandent d'utiliser le modèle Yarn-Llama-2-7b-128k, disponible sur Hugging Face. Développé par l'équipe Nous Research, le modèle peut traiter jusqu'à 128 000 tokens en entrée et surpasse Llama 2 sur des tâches nécessitant de longs contextes, mais reste moins performant que Llama 2 Long.