Ali Ghodsi (Databricks) "Databricks lance une marketplace orientée data et IA applications"
A l'occasion de l'événement annuel du groupe américain, son cofondateur et CEO Ali Ghodsi a accordé une interview au JDN. Il revient sur sa vision de la data platform et sur sa stratégie pour 2022-2023.
JDN. Quelles sont les tendances que vous observez dans le data management cette année ?
Ali Ghodsi. Il y en a trois. D'abord, un nombre croissant d'organisations s'intéresse au machine learning pour accroitre l'automatisation et améliorer le rapport coût-efficacité. Cela s'explique notamment par la pression financière à laquelle elles font face à la fois dans un contexte d'inflation et de crise en Europe. Ensuite, de plus en plus de clients ne souhaitent plus recourir à leur data warehouse et se tournent vers notre lakehouse pour rationaliser les coûts. Une plateforme qui répond à la fois aux cas d'usage orientés entrepôt de données et BI, data lake et machine learning, mais aussi streaming de données et calcul distribué. Cette tendance a débuté au premier trimestre 2022. Enfin, la confidentialité des données figure de manière croissante parmi les préoccupations principales de nos clients.
Où en êtes-vous dans la mise en œuvre de votre stratégie multicloud ?
Plus de 70% de nos clients utilisent plus d'un cloud. D'ici deux à trois ans, le multicloud va devenir indispensable lors du choix d'une solution logicielle. Du coup, les éditeurs comme Databricks ayant fait le choix d'une approche dite de sky de computing (ou multicloud, ndlr) seront gagnants. Notre data plateforme multicloud est disponible sous la forme d'un service managé recouvrant Alibaba Cloud, Amazon Web Services, Microsoft Azure et Google Cloud.
Vous avez acquis l'environnement de data science low-code / no code 8080 Labs en octobre 2021 puis la plateforme de MLOps Cortex Labs en avril 2022. Où en êtes-vous dans l'intégration de ces deux technologies ?
Elles sont déjà intégrées dans notre produit et utilisées en bêta par beaucoup de nos clients. Nous sommes très proches de l'annonce d'une disponibilité générale.
Estimez-vous que le no code soit un levier pour démocratiser les applications à base de machine learning ?
Absolument. C'est dans cette optique que nous avons acquis Bamboolib (l'outil low-code / no code d'exploration et de transformation de données développé par 8080 Labs, ndlr). Nous estimons que l'IA doit se démocratiser dans les 10 prochaines années. Ce qui passera par une simplification de la technologie et l'adoption d'outils de développement sans code.
"Notre chiffre d'affaires issu du streaming de données a augmenté de 150% en 2021"
En parallèle, les universités et écoles supérieures forment un nombre croissant d'experts de haut niveau en data science, qui réalisent des développements de plus en plus complexes. C'est une tendance que nous observons dans l'informatique depuis environ 25 ans pour d'autres technologies. D'un côté, les programmeurs montent en puissance sur des domaines spécialisés. Et de l'autre, la technologie se simplifie et se démocratise (sur les tâches standard, ndlr). Dans le domaine du calcul par exemple, on l'a vu avec Excel.
Que pensez-vous de l'approche data mesh qui ne cesse de faire parler d'elle ces derniers mois ?
Beaucoup de nos clients mettent en œuvre cette démarche en s'appuyant sur Databricks. Zhamak Dehghani, qui a conceptualisé cette notion, interviendra d'ailleurs lors d'une keynote sur notre événement mondial 2022. Le data mesh consiste à distribuer la gestion des données sur plusieurs équipes au lieu de la centraliser sur une équipe unique. Databricks permet de mettre en œuvre l'un ou l'autre des deux modèles. Si vous optez pour le data mesh, nous proposons des dispositifs de data sharing et de data catalog pour outiller cette approche.
A l'occasion de votre Data + AI Summit 2022, vous annoncez l'ouverture d'une marketplace dans les tous prochains mois... (lire l'article : Databricks accélère sur le machine learning)
Au-delà des data sets, cette marketplace est orientée data et IA applications. C'est un point clé car la valeur se situe précisément dans les applications.
Vous annoncez aussi une nouvelle génération du moteur de streaming Spark avec Project Lightspeed. Pourquoi cette refonte ?
Notre chiffre d'affaires issu du streaming de données a augmenté de 150% en 2021. Ce qui représente une croissance nettement plus rapide comparé à l'ensemble de notre activité. Pourtant, nous n'avons pas promu le streaming et avons assez peu investi dans ce domaine. Il y a huit à neuf mois quand nous nous sommes rendus compte de cette tendance, nous avons commencé à accentuer nos investissements dans ce domaine en créant une nouvelle équipe. Nous avons recruté Karthik Ramasamy, l'ingénieur à l'origine du fameux moteur de streaming Pulsar (sur lequel est basé le nouveau moteur, ndlr).
"La chose la plus importante pour nous est de continuer à simplifier l'utilisation de notre plateforme"
L'objectif de Project Lightspeed est de réduire la latence (des flux de données, ndlr). Et surtout de prédire cette latence. C'est une demande forte de nos clients. Une autre demande portait sur le support de Python. Nous fournissons par conséquent une prise en charge de ce langage de bout en bout au sein du nouveau moteur. Nous avons par ailleurs développé des connecteurs avec des systèmes tiers comme Google Pub/Sub, DynamoDB, Kafka, etc. Enfin sur le plan des évolutions avancées les plus demandées, nous avons implémenté les fonctions de fenêtrage temporel.
Quel est votre priorité désormais en termes de R&D ?
La chose la plus importante pour nous est de continuer à simplifier l'utilisation de notre plateforme tout en renforçant son intégration de bout en bout. Ce qui passe par le low-code / no code, l'auto ML, mais également la simplification du streaming de données.
Quand pourriez-vous entrer en bourse ?
Nous avons vocation à devenir une société cotée. Mais nous ne sommes pas pressés. Le marché sur lequel nous sommes positionnés va croître massivement pendant encore une dizaine d'années. Nous n'en sommes qu'au tout début. Qui se soucie aujourd'hui de la date d'entrée en bourse de Facebook ?
Avant de cofonder Databricks en 2013, Ali Ghodsi s'était fait un nom dans le secteur de la data science. Chercheur sénior au sein du très sélect Swedish Institute of Computer Science de 2007 à 2009, il décroche un doctorat à l'Ecole royale polytechnique de Suèdes où il devient assistant professeur. Il cofonde en parallèle Peerialism AB, une société qui développe une plateforme de gestion de données en peer-to-peer. En 2009, il rejoint l'Université de Californie (Berkeley) comme chercheur invité. Il est promu chercheur adjoint en 2015. Pendant cette période, il contribue au lancement des projets Apache Mesos et Apache Spark. Lors de la création de Databricks en 2013, il prend d'abord la tête de l'engineering et du produit, avant d'être nommé CEO en 2016.