Comment Snowflake et Databricks intègrent l'IA générative

Les deux ténors des data platform se sont lancés dans une stratégie de R&D visant à assurer le pilotage des large language models dans leur environnement.

Dans le sillage de l'avènement de ChatGPT, Snowflake et Databricks commencent tous deux à intégrer les large language models (LLM) à leur data platform respective. Une démarche qui apparaît comme clé à l'heure de la montée en puissance de l'IA générative. Cette technologie s'adosse en effet aux LLMs pour fonctionner. Sur ce point, les stratégies des deux concurrents sont très différentes.

Dans une nouvelle version annoncée en juin, Snowflake annonce la possibilité de porter sur sa plateforme des applications containérisée. "Le container Kubernetes est précisément l'outil qui va permettre d'intégrer des LLM à Snowflake, qu'ils soient propriétaires ou open source", précise Cécil Bove, directeur sales engineering Europe du Sud pour l'éditeur du Montana (voir l'infographie ci-dessous).

Par le biais des containers, les LLMs sont directement exécutés sur la plateforme de Snowflake, que ce soit pour l'entrainement ou l'inférence. Avec à la clé la possibilité de leur associer des instances de calcul ad hoc. Côté GPU, Snowflake a signé un partenariat technologique avec NVidia. Objectif : optimiser la gestion par sa plateforme des infrastructures de calcul graphique du fondeur. "Notre stratégie consiste à placer l'IA au plus proche des données. Et ce à la fois pour des raisons de gouvernance, de sécurité et de propriété intellectuelle, mais aussi pour mettre les capacités de calcul là où sont stockées les informations en vue d'atteindre le meilleur ratio performance / coût", commente Cécil Bove.

Aux côtés de son partenariat Nvidia, Snowflake a également conclu des accords avec plusieurs fournisseurs de LLM. C'est notamment le cas avec Microsoft, Reka ou AI21 Labs.

Partenaire - Une alternative souveraine aux GAFAM existe. Découvrez un prestataire cloud engagé pour la vie privée et l'écologie.

La gestion du cycle de vie des modèles

De son côté, Databricks a également choisi de prendre le sujet des LLM à bras le corps. "Nous étions persuadé que la dimension open source allait émerger pour challenger la dimension propriétaire tout en dynamisant l'innovation", explique Nicolas Maillard, vice-président du field engineering chez Databricks. Partant de cette analyse, l'éditeur de San Francisco publie en mars dernier Dolly, un LLM open source de 6 milliards de paramètres. "Face à ChatGPT, l'objectif était de démontrer qu'on pouvait aboutir à des résultats pertinents grâce à un LLM de petite taille, avec un budget en puissance de calcul limité à 30 dollars", souligne Nicolas Maillard.

Désormais en version 2.0, Dolly atteint 12 milliards de paramètres. "Nous travaillons avec des clients sur des projets qui consiste à l'optimiser pour des besoins spécifiques de terrain", assure Nicolas Maillard.

"Nous avons fait évoluer MLFlow et d'autres systèmes pour vérifier la qualité des LLM"

En parallèle, Databricks planche sur le monitoring. "Nous avons fait évoluer MLFlow et d'autres systèmes pour faire en sorte de vérifier la qualité des LLMs, s'assurer qu'ils sont propres, se donner les moyens de les comparer. Le tout avec pour objectif d'optimiser la qualité et les coûts du produit final", détaille Nicolas Maillard.

Un domaine que ne couvre pas Snowflake, celui-ci se limitant pour l'heure à la gestion du cycle de vie des LLM. Pour réaliser cette tâche, le groupe compte sur son model registry pour piloter l'ensemble du cycle de vie des modèles de langue, depuis l'entrainement jusqu'au déploiement en passant par le test et la validation. En bout de course, un outil, baptisé Streamlit, embarque, en quelques lignes de code, le LLM au sein d'une interface web. "On accède ainsi facilement au résultat des modèles. Nous avons des clients qui ont créé des équivalents de ChatGPT via Streamlit. D'autres s'en servent pour afficher les résultats de plusieurs modèles", détaille Cécil Bove.

En vue de faciliter le développement de produits aussi complexe que ChatGPT, Snowflake intègre une base de données vectorisées, un feature store, ainsi qu'un environnement de gestion de pipeline de machine learning (orienté MLOps).

MosiacML pour l'entrainement et l'inférence

A la différence de Snowflake, Databricks ne mise pas directement sur sa data plateforme historique pour entraîner, tester et déployer les LLM. L'éditeur a choisi d'acquérir une solution tierce pour réaliser cette tâche. Il s'agit de MosaicML. L'opération a été bouclée en juillet 2023 pour un montant estimé à 1,3 milliard de dollars. L'offre de MosaicML s'articule autour d'un système d'orchestration pour exécuter l'entrainement et l'inférence de gros modèles de machine learning et de deep learning. En parallèle, MosaicML met en avant trois LLM open source (MPT-7B, MPT-30B et MPT-7B-8K). Sur ce point, la stratégie rejoint celle de Databricks en faveur d'une IA orientée logiciel libre.

"Grâce à cette acquisition, nous serons en mesure de fournir à nos 10 000 clients la possibilité d'utiliser leurs propres données stockées dans le Databricks Lakehouse pour former et déployer des LLM […]. La combinaison de MosiacML et de notre Lakehouse a pour but de fournir la meilleure plateforme d'IA générative de sa catégorie", conclut Ali Ghodsi, co-fondateur et PDG de Databricks.

Comment Snowflake et Databricks intègrent l'IA générative

La gestion du cycle de vie des modèles

MosiacML pour l'entrainement et l'inférence

Guides

Repères