Après l'IA, Databricks étend son data lake 2.0 à l'analytics en self-service

Après l'IA, Databricks étend son data lake 2.0 à l'analytics en self-service Déjà taillée pour le big data et le machine learning, la plateforme du Californien s'étend désormais à la business intelligence et la data visualisation. Tableau ou encore PowerBI s'intègrent à l'édifice.

Databricks se définit comme une plateforme d'analytics unifiée. Une solution conçue pour faire face à la fois au défi du big data (traiter des Po de données) et à l'enjeu de l'intelligence artificielle (appliquer à ces volumes d'informations des algorithmes de machine learning). La société de San Francisco ajoute une nouvelle pierre à l'édifice : une architecture d'entrepôt de données. Baptisée SQL Analytics, elle s'intègre nativement aux applications d'analytics en self-service les plus utilisées : Tableau, PowerBI, Qlik, Looker ou encore Thoughtspot. "Jusqu'ici, il était nécessaire d'acquérir deux systèmes : l'un pour la data science, l'autre pour la business intelligence et SQL. Grâce à SQL Analytics, il est désormais possible de s'adosser à un même système pour répondre aux deux besoins. Cela simplifie de facto l'infrastructure et évite de dupliquer les données", souligne Ali Ghodsi, CEO et cofondateur de Databricks.

L'offre de Databricks s'articule autour d'un moteur de traitement (Delta Engine) équipé de deux interfaces. En vue de gérer l'entrainement des modèles d'IA, la première n'est autre que Dataframe, une API utilisée par la plupart des librairies de statistiques et de machine learning. La seconde ? Une interface SQL. "Delta est un moteur entièrement réécrit. A la différence de notre moteur historique basé sur Spark, il est nativement temps réel. Il garantit des transactions Acid (pour atomicité, cohérence, isolation et durabilité, ndlr) taillées pour traiter des volumes massifs de data", commente Ali Ghodsi. Pour les besoins de traitement par lots, Delta Engine permet néanmoins d'émuler le mode batch. "C'est le chemin inverse de celui que nous avons pris pour Spark qui est bâti sur une architecture de batch. En 2017, nous avons développé Spark Structured Stream pour émuler des transactions en temps réel à partir de micro-batch."

"Les segments du data warehouse d'une part, et de la data science/machine learning d'autre part, vont fusionner"

Sans surprise, SQL Analytics s'adosse directement à l'interface SQL du moteur de Databricks. Basée sur l'outil de dashboarding open source Redash également édité par Databricks, la solution se compose d'une interface graphique pour gérer les bases de données. Dans la logique d'une console de data warehouse, elle permet de lancer des requêtes SQL et créer des tableaux bord. Intégrant un mode de saisie semi-automatisée (ou autocomplete), elle génère des graphiques à la volée.

L'interface utilisateur de SQL Analytics s'adosse à l’outil de dashboarding open source Redash. © Databricks

Des connecteurs sont là pour intégrer SQL Analytics à Tableau, PowerBI, Qlik, Looker et Thoughtspot. "L'ensemble des fonctionnalités de chacune de ces offres sont utilisables via SQL Analytics", assure Ali Ghodsi. Un tour de force. Qu'en est-il en termes de performance ? Selon une étude comparative encore confidentielle du Barcelona Supercomputing Center, le rapport prix/performance de SQL Analytics est 9 fois supérieur à celui des data warehouses cloud traditionnels.

En mode cloud sur AWS et Azure

A l'image de son offre de data science, SQL Analytics est disponible sous forme de services managés à la fois sur les clouds d'Amazon (AWS) et de Microsoft (Azure). Le tarif s'élève à 0,15 dollar de l'heure par unité de calcul Databricks. Aux côtés des applications de BI mentionnées ci-dessus, SQL Analytics peut également compter sur la technologie d'intégration de données du français Talend pour nourrir ses bases de données en data en provenance de systèmes tiers. En amont de son lancement, le produit a été expérimenté par plusieurs clients : Shell, Atlassian, Yipidata et Wejo.

Architecture de la plateforme de Databricks. © Databricks

"Les segments du data warehouse d'une part, et de la data science/machine learning d'autre part, vont fusionner. C'est un mouvement que nous souhaitons accompagner avec SQL Analytics. Sachant que le marché et les perspectives de croissance vont devenir énormes à la croisée de ces deux créneaux. C'est le sens de notre stratégie", commente Ali Ghodsi. 

Comptant 1 500 salariés, Databricks est présent en France. Au troisième trimestre 2020, la société enregistre chiffre d'affaires (run rate) de 350 millions dollars, contre 200 millions de dollars lors de la même période en 2019. Pour la suite, l'éditeur compte étendre sa solution à d'autres clouds. Après AWS et Azure, la société a porté son offre sur Alibaba Cloud. "Nous étudions également d'autres providers. Je suis sûr que nous en ajouterons d'autres dans le futur", confie Ali Ghodsi.