Après AWS et Azure, Databricks sort sur Google Cloud pour faciliter IA et analytics

Après AWS et Azure, Databricks sort sur Google Cloud pour faciliter IA et analytics Taillée pour le big data et le machine learning, la plateforme du Californien, qui a levé 1 milliard de dollars début février, est désormais présente sur les principaux clouds de la planète.

Databricks se définit comme une plateforme d'analytics unifiée. Une solution conçue pour faire face à la fois au défi du big data (traiter des Po de données) et à l'enjeu de l'intelligence artificielle (appliquer à ces volumes d'informations des algorithmes de machine learning). Après avoir été lancée sur AWS, puis sur Microsoft Azure et Alibaba Cloud, la solution, 100% managée, est désormais disponible sur Google Cloud. "Il s'agit d'une étape cruciale qui illustre notre engagement d'offrir à nos clients la flexibilité et le choix entre les principaux PaaS (Platform as a Service, ndlr), le tout avec une expérience sans couture", déclare Ali Ghodsi, CEO et cofondateur de Databricks.  L'information intervient quelques jours après l'annonce par l'entreprise d'une levée de fonds de séries G de 1 milliard de dollars, portant sa valorisation à pas moins de 28 milliards de dollards.

Schématiquement, la plateforme de Databricks s'articule autour d'un moteur de traitement (Delta Engine) équipé de deux interfaces. Taillée pour gérer l'entrainement des modèles d'IA, la première n'est autre que Dataframe, une API utilisée par la plupart des librairies de statistiques et de machine learning. La seconde ? Une interface SQL. "Delta est un moteur entièrement réécrit. A la différence de notre moteur historique basé sur Spark, il est nativement temps réel. Il garantit des transactions Acid (pour atomicité, cohérence, isolation et durabilité, ndlr) dessinées pour traiter des volumes massifs de data", commente Ali Ghodsi. Pour les besoins de traitement par lots, Delta Engine permet néanmoins d'émuler le mode batch

"Les segments du data warehouse d'une part, et de la data science/machine learning d'autre part, vont fusionner"

Sans surprise, SQL Analytics s'adosse directement à l'interface SQL du moteur de Databricks. Basée sur l'outil de dashboarding open source Redash également édité par Databricks, la solution se compose d'une interface graphique de pilotage de bases de données. Dans la logique d'une console de data warehouse, elle permet de lancer des requêtes SQL et créer des tableaux bord. Intégrant un mode de saisie semi-automatisée (ou autocomplete), elle génère des graphiques à la volée.

"Jusqu'ici, il était nécessaire d'acquérir deux systèmes : l'un pour la data science, l'autre pour la business intelligence et SQL. Grâce à SQL Analytics, il est désormais possible de s'adosser à un même système pour répondre aux deux besoins. Cela simplifie de facto l'infrastructure et évite de dupliquer les données", résume Ali Ghodsi. 

Architecture de la plateforme de Databricks. © Montage JDN

A l'occasion de son portage sur Google Cloud, la plateforme Databricks a été intégrée à Google BigQuery. Ses utilisateurs peuvent ainsi recourir en toute transparence à l'entrepôt de données de Google pour réaliser leurs analyses. La solution bénéficie aussi de connecteurs pour Google Cloud Storage, mais également pour la messagerie asynchrone Google Pub/Sub et l'application d'analytics Google Looker. "Côté intelligence artificielle, les workflows de données créés dans Databricks permettront d'entraîner des modèles d'apprentissage via AI Platform (le studio de data science de Google Cloud, ndlr), ces modèles pouvant ensuite être déployés par le biais de Google AI Platform Prediction", précise-t-on chez Databricks.

 "Google Kubernetes Engine nous permet d'accélérer la sortie de nouvelles fonctionnalités, et ce à grande échelle et à moindre coût"

La déclinaison de Databricks pour le cloud de Mountain View a donné lieu, pour la première fois, à la mise en œuvre d'une architecture containérisée et orchestrée par Kubernetes. Un socle qui facilitera à l'avenir les déploiements de la plateforme sur d'autres clouds. On pense évidemment à OVHCloud, entre autres. 

L'édition de Databricks pour Google Cloud repose directement sur le service managé Google Kubernetes Engine (GKE). En adoptant GKE comme environnement d'exploitation, elle bénéficie de facto des services managés de ce dernier en matière de sécurité et de gestion des politiques réseau. "GKE va nous permettre en parallèle d'accélérer la sortie de nouvelles fonctionnalités, et ce à grande échelle et à moindre coût", ajoute un porte-parole de Databricks.

Disponible sur la Google Cloud Marketplace, la plateforme bénéficie par ailleurs du système d'identification unique de Google Cloud et d'une facturation intégrée à sa console de management. Databricks entend faire en sorte que les outils de gestion de data et d'analytics en self-service avec lesquels il est historiquement intégré le soient de la même façon avec sa déclinaison pour le cloud de Google. Collibra, Confluent, Informatica, MongoDB, Qlik et Tableau, notamment, s'y sont déjà engagés. 

L'interface utilisateur de SQL Analytics s'adosse à l'outil de dashboarding open source Redash. © Databricks

Qu'en est-il des performances de l'entrepôt de données de Databricks ? Selon une étude comparative du Barcelona Supercomputing Center, le rapport prix/performance de SQL Analytics est de 9 fois supérieur à celui des data warehouses cloud traditionnels. Partant de là, les perspectives de marché seraient tout bonnement colossales. "Les segments du data warehouse d'une part, et de la data science/machine learning d'autre part, vont fusionner. C'est un mouvement que nous souhaitons accompagner avec SQL Analytics. Sachant que les perspectives de croissance vont devenir énormes à la croisée de ces deux créneaux", confirme Ali Ghodsi. "Cette politique combinée à notre stratégie multicloud nous positionne parfaitement pour répondre aux enjeux des entreprises dans la data et l'IA."

Comptant 1 500 salariés, Databricks est présent en France. Au troisième trimestre 2020, la société enregistre un chiffre d'affaires (run rate) de 350 millions dollars, contre 200 millions de dollars lors de la même période en 2019. A l'issue de l'année 2020, Databricks revendique un chiffre d'affaires annuel récurrent (ou ARR) de 425 millions de dollars, en hausse de 75% sur un an. Une fusée est lancée, et pas prête de s'arrêter.