Plus performant que Llama 2 et Mixtral : Databricks présente DBRX, son LLM maison

Plus performant que Llama 2 et Mixtral : Databricks présente DBRX, son LLM maison Databricks publie un LLM open source à l'état de l'art en compréhension du langage, programmation, mathématiques et logique. Un modèle disponible dès aujourd'hui.

Pas forcément attendu dans la course à l'IA, Databricks frappe fort dans le milieu du LLM open source. L'entreprise présente ce mercredi 27 mars un LLM libre défiant les acteurs existants du secteur. Nommé DBRX, le modèle est disponible depuis ce jour sur GitHub et HuggingFace.  La volonté de Databricks est de proposer une alternative fiable et robuste aux modèles propriétaires déjà disponibles sur le marché.

Databricks l'assure, DBRX surpasse les modèles open source de référence dans l'industrie. Llama 2 70B et Mixtral-8x7B sont dépassés par ce petit dernier. DBRX offre des performances significativement meilleures en compréhension du langage (en anglais), en programmation en mathématiques ou encore en logique.

DBRX surpasse plusieurs modèles de référence en compréhension du langage naturel (MMLU), programmation (HumanEval) et en raisonnement mathématique (GSM8K). © Databricks

Le modèle est également meilleur que GPT-3.5 d'OpenAI. Dans certains cas le modèle surpasse GPT-4, comme en génération et compréhension du SQL.

DBRX bat GPT 3.5 en compréhension du langage, programmation et mathématiques. © Databricks

En parallèle, les chercheurs de Databricks ont développé le modèle en misant sur une efficacité d'inférence maximale. Le modèle s'appuie sur une architecture MoE (multi-agents) développée à partir de MegaBlocks. Pour rappel, MegaBlocks est une méthode d'entraînement de modèles MoE créée sur la base des travaux de recherche de Microsoft, Google et plusieurs chercheurs en IA de l'université de Stanford. Elle permet de réduire drastiquement les ressources utilisées par les MoE pendant l'entraînement. Et les résultats sont là : DBRX est jusqu'à deux fois plus efficace que "des LLMs de premier plan", note Databricks. Une réduction des ressources qui rend "le modèle extrêmement rapide en termes de tokens par seconde, tout en étant rentable", détaille Ali Ghodsi, cofondateur et PDG de Databricks.

Un modèle à fine-tuner

Databricks l'affirme clairement, DBRX n'est pas conçu pour être utilisé sans affinage. Ses experts conseillent aux entreprises qui souhaitent l'utiliser de la fine-tuner sur leurs données ou pour des cas d'usage spécifiques. Le modèle est disponible depuis les repository habituels (HuggingFace et GitHub). Il peut être utilisé à des fins commerciales. Databricks le propose également au sein de sa plateforme. La version déployée permet de traiter des contextes longs, d'affiner le modèle sur ses données ; il peut être utilisé avec un système de RAG.

En open source, DBRX ouvre la voie à de nombreuses applications concrètes pour les entreprises. Le modèle peut notamment être utilisé pour automatiser des tâches de rédaction, de résumé et de génération de contenu à grande échelle. Un modèle que compte expérimenter prochainement les équipes de Zoom pour "rendre l'entraînement et le service de modèles d'IA génératifs personnalisés plus rapides et plus rentables pour nos principaux cas d'utilisation", annonce Chenguang Zhu, responsable de GenAI Science chez Zoom.