Databricks, la licorne US qui met l'IA à portée de tous

Fondée par les créateurs d'Apache Spark, sur lequel elle adosse son offre, la société californienne commercialise une plateforme cloud taillée pour l'intelligence artificielle.

Démocratiser l'IA quelle que soit la taille de l'entreprise, tel est l'objectif du californien Databricks. Pour relever ce défi, la société de San Francisco est parvenue à lever pas moins de 498,5 millions de dollars depuis sa création en 2013. Lors de son dernier tour de table début 2019 (de 250 millions de dollars), Databricks a annoncé avoir hissé sa valorisation à 2,75 milliards de dollars, et passé le cap des 100 millions de dollars de revenu annuel récurrent à l'issue de 2018. Il faut dire que ses fondateurs ne sont pas nés de la dernière pluie. Il s'agit des créateurs de la célèbre infrastructure de calcul distribuée Apache Spark. Le framework constitue la base de leur offre. Avec des bureaux en Allemagne, en Angleterre, en Australie, en France, en Inde, à Singapour et aux Pays-Bas, Databricks compte quelque 800 salariés à ce jour, et entend dépasser le millier d'employés d'ici 2020.

"Nous sommes confrontés à un marché où la demande est en très forte croissance, que ce soit aux Etats-Unis, mais aussi en zones Europe Moyen-Orient et Afrique et en Asie-Pacifique. Toutes les entreprises, des start-up aux grands groupes en passant par les sociétés de taille moyenne, se rendent compte qu'elles ne pourront pas faire sans l'IA. Et la tendance devrait s'étaler sur au moins une dizaine d'années", commente Ali Ghodsi, cofondateur et CEO de Databricks. Partant de ce constat, la société n'envisage pas pour l'heure l'IPO comme objectif à atteindre, même si elle pourrait tenir lieu, à terme, "de tremplin".

Big data intégré

La valeur ajoutée de Databricks ? Proposer une plateforme cloud conçue pour faire face à la fois au défi du big data (traiter des Po de données) et à l'enjeu de l'intelligence artificielle (appliquer à ces volumes d'informations des algorithmes de machine learning).

Databricks recouvre l'intégralité du processus d'IA. En amont, elle gère via Spark la fédération des données réparties au sein des bases relationnelles, data warehouses, services cloud de stockage de l'entreprise. Ensuite, par le biais de la brique Delta Lake, elle cible la gouvernance des données, leur mise en conformité, leur sécurité, le management de leur qualité. Puis avec MLFlow et Runtime for ML, elle permet de créer les modèles d'IA, les entrainer en se basant là encore sur Spark et, enfin, les déployer sur le terrain.

Architecture de la plateforme d'IA de Databricks. © Databricks

"Sur la base de Delta Lake, vous avez la possibilité de revenir via MLFlow sur d'anciennes données ou d'anciens modèles de learning, mais aussi réaliser des traitements massifs d'historique en utilisant l'API de Spark.", complète le CEO de Databricks.

MLFlow et Runtime for ML prennent en charge les infrastructures de machine et deep learning les plus populaires (Keras, PyTorch, Scikit Learn, Tensorflow, XGBoost, etc.). Elles y sont intégrées de manière packagée et sont par ailleurs incluses au service de support technique de l'éditeur, d'une durée de 5 ans.

"L'objectif est de proposer un standard sur le front de la qualité et de la fiabilité des données"

Pour simplifier encore la mise en œuvre de l'IA, la plateforme Databricks est disponible sous la forme de services managés sur les clouds publics d'Amazon et Microsoft. Les clients souscrivent aux ressources machines dont ils ont besoin sur l'un ou l'autre cloud et paient en plus un abonnement à la société de San Francisco. Databricks tarifie son offre à l'usage via un pricing finement dosé. La version complète de sa solution est par exemple tarifée 0,40 dollar/heure pour une instance de 2 vCPUs et 8 Go de mémoire (voir le tableau complet sur le site de Databricks). Des partenaires intégrateurs parmi lesquels le Français Capgemini peuvent en parallèle accompagner les clients souhaitant bénéficier d'une installation internalisée de la plateforme.

Fait intéressant, Databricks déploie une stratégie open source qui va bien au-delà de Spark. A l'instar de MLFlow, "nous avons également publié Delta Lake en open source, sous licence Apache 2.0. L'objectif est par ce biais de proposer un standard sur le front de la qualité et de la fiabilité des données. Nous estimons que cette démarche sera meilleure pour l'industrie sur le long terme et pour le projet Delta Lake, et donc in fine pour notre positionnement et notre offre", explique Ali Ghodsi.

Vers l'automatisation du machine learning

Pour la suite, Databricks est en train de développer une infrastructure de management IT sans serveur ou serverless. "Les données pourront être gérées sur Delta Lake sans avoir à piloter de serveur virtuel", explique Ali Ghodsi. En parallèle, Databricks planche sur des fonctionnalités d'automatisation du machine learning qui viendront se greffer à MLFlow. "Elles permettront de dénicher automatiquement le bon modèle, les bons paramètres et la bonne architecture d'entraînement, en fonction du data set." Databricks compte aussi livrer des mécanismes de transfert d'apprentissage, que ce soit entre les modèles d'un même client ou de plusieurs clients (pour peu que ces derniers parviennent à se mettre d'accord sur ce mode opératoire), ou encore en tirant profit du savoir-faire d'un modèle mis en open source par un tiers.

Inscrit également à sa feuille de route, Databricks envisage en outre de porter sa solution sur d'autres clouds que ceux d'Amazon et de Microsoft. "Il y aura d'autres clouds. Mais il est encore trop tôt pour dire lesquels. Sur cette question, nous sommes attentifs aux demandes de nos clients", complète Ali Ghodsi.