Databricks accélère sur le machine learning

La société de San Francisco dévoile la version 2.0 de MLflow lors de son événement mondial. Elle annonce aussi l'ouverture d'une marketplace pour faciliter, notamment, le partage d'applications d'IA.

Databricks fait de l'IA l'une de ses marques de fabrique. A l'occasion de son événement mondial en cette fin juin (le Data + AI Summit 2022), la data platform de San Francisco renforce encore son positionnement dans ce domaine en lançant officiellement la version 2.0 de l'outil de MLOps open source MLflow. La principale évolution ? Il s'agit de MLflow Pipelines. Une brique qui automatise l'exécution des flux d'apprentissage via des fichiers de configuration dans une logique de machine learning as code. MLflow Pipelines s'accompagne de modèles prêts à l'emploi. Autres nouveautés de MLflow 2.0 : des Serverless Model Endpoints pour gérer l'hébergement des modèles une fois déployés, ainsi que des tableaux de bord pour monitorer leur performance en situation réelle de production.

La Databricks Marketplace

Lors de ce Data + AI Summit, un projet de marketplace est également dévoilé (lire l'interview d'Ali Ghodsi : "Databricks lance une marketplace orientée data et IA applications"). Cette place de marché dont l'ouverture est prévue "d'ici quelques mois" sera évidemment consacrée au partage de data sets, mais aussi à celui d'applications orientées data et IA, par exemple des tableaux de bord analytics intégrant modèles d'apprentissage et ingestion de données. Un élément qui semble répondre directement à l'annonce de la prise en charge d'applications natives par Snowflake lors de son propre événement mondial qui s'est tenu en juin.

"Spark Connect est l'un des principaux changements depuis que nous avons lancé Spark"

La marketplace intégrera le protocole open source Delta Sharing (conçu par Databricks) pour partager des jeux de données avec des applications tierces sans avoir à les répliquer. Toujours en vue de favoriser les échanges, Databricks entend livrer Data Clean Room dans les prochains mois. Une solution taillée pour exécuter des requêtes et traitements sur des data stockées sur sa plateforme, via les environnement SQL, Python, R et Scala, tout en maîtrisant la confidentialité des informations et en évitant leur duplication.

Un lakehouse 100% open source

Autre fait marquant du Data + AI Summit 2022, Databricks lève le voile sur la nouvelle génération du moteur de streaming de l'infrastructure de calcul distribué Spark. Une refonte qui repose sur la plateforme de messaging dite pub-sub Apache Pulsar. L'enjeu ? Optimiser les temps de latence et surtout permettre de les prédire. Toujours dans la galaxie Spark, Databricks introduit Spark Connect. Une librairie qui permet d'accéder à Spark depuis n'importe quel type de terminal via l'API DataFrame du framework open source. Elle découple client et serveur pour plus de stabilité. "Spark Connect est l'un des principaux changements depuis que nous avons lancé Spark", explique Ali Ghodsi, CEO de la société californienne.

Enfin, Databricks en profite pour annoncer la release candidate de Delta Lake 2.0. Avec cette nouvelle version, l'éditeur publie désormais l'intégralité de son infrastructure de lake house en open source, et plus seulement ses formats de données. "L'objectif est de permettre une adoption massive de Delta Lake au niveau mondial, et d'accélérer l'innovation autour de cette technologie. Ce qui évidemment nous sera bénéfique ainsi qu'à nos clients", conclut Ali Ghodsi.