Le data cloud de Snowflake propulse désormais des applications natives

C'est un nouveau virage stratégique pour l'éditeur américain. Son offre n'est plus seulement une data platform, mais aussi un environnement de platform as a service orienté applicatif.

A l'occasion du Snowflake Summit qui se tient cette semaine à Las Vegas, l'éditeur américain du même nom annonce une nouvelle étape dans sa stratégie. Associant la souplesse et la volumétrie du big data à la performance d'un entrepôt de données, son lakehouse en mode cloud (Data Cloud) permet désormais de propulser des applications. Jusqu'ici limitée à l'échange de données issues de sa plateforme, la marketplace de l'éditeur leur réserve également une place en vue de les partager et les monétiser.

"Reposant sur notre environnement, ces data apps pourront bénéficier de données transactionnelles ou analytics, mais aussi embarquer des modèles de machine learning si besoin", explique Benoît Dageville, cofondateur et président produit de Snowflake. Pièce maitresse du dispositif, le Native Application Framework, pour l'heure en bêta privée, gère l'ensemble de leur cycle de vie, du développement à la vente en passant par le déploiement et le passage à l'échelle. Les applicatifs pourront évidemment tirer parti des fonctions propres à Snowflake : procédures stockées, UDFs, UDTFs...

En aval, les apps développées sur Snowflake et données associées demeureront dans l'espace (ou tenant) du client à la manœuvre. Ce dernier restera ainsi maître de leur sécurité et de leur gouvernance quel que soit l'usage qui en est fait. Parmi les 425 éditeurs partenaires de Snowflake, quelques-uns ont déjà eu accès au nouveau framework. C'est le cas d'Informatica ou ServiceNow dans le cadre du développement de nouveaux connecteurs Snowflake. Mais aussi de Google pour intégrer à la plateforme les indicateurs de Google Analytics.

Le machine learning au cœur de l'offre

Le Native Application Framework vient compléter Snowpark. Une bibliothèque dessinée pour traiter des données de manières massivement parallèle dans Snowflake (sur le modèle de Spark) tout en tirant parti d'une sandbox pour les sécuriser. Sa finalité ? Permettre de construire des pipelines de données et des processus d'apprentissage machine. Lors de son événement mondial, Snowflake annonce d'ailleurs la disponibilité en bêta publique de Snowpark pour Python. Le langage vient s'ajouter à Java et Scala, des langages déjà supportés. Snowpark pour Python s'intègre à l'environnement de développement Python issu du rachat de Streamlit. En parallèle, plusieurs librairies Python sont prises en charge : Numpy et Pandas côté data analytics et Scikit-learn et Tensorflow côté machine learning.

Architecture du cloud de Snowflake. © Snowflake

Pour compléter Snowpark pour Python, Snowflake planche sur plusieurs évolutions. D'abord, Snowflake Worksheets pour Python qui vise à intégrer Streamlit au cœur de son interface graphique (Snowsight). Ensuite, SQL Machine Learning qui sera taillée pour échafauder des modèles de machine learning prédictifs en se basant sur des séries chronologiques (ou time series). Ces deux briques sont actuellement en bêta privée. Enfin, Large Memory Warehouses, actuellement en cours de développement, viendra exécuter des opérations gourmandes en mémoire, par exemple des traitements de feature engineering ou d'apprentissage machine appliqués à des jeux de données volumineux.

Transactionnel et data analytics

Aux côtés de l'introduction des applications, le Snowflake Summit a été le théâtre d'autres annonces importantes. Au premier rang desquelles l'introduction d'UniStore. Lancée en bêta privée, cette brique renforce Snowflake dans la gestion des traitements transactionnelles. Objectif affiché : exécuter des services de données avec des latences de quelques millisecondes en maitrisant les états et accès concurrents. "Ce qui est très utile en machine learning", argue Benoît Dageville. Pour l'occasion, Snowflake crée des tables hybrides pour gérer à la fois les traitements transactionnels (OLTP) et data analytics. "L'objectif est d'éviter le partage entre données courantes et données d'historique avec la nécessité d'avoir un ETL entre les deux", complète le cofondateur de Snowflake.

Autre annonce, Snowflake améliore l'ingestion de données en temps réel. Une évolution qui passe par le lancement de Snowpipe Streaming (en bêta privée). Une technologie qui permet de streamer des données en mode serverless. A cette brique viendra bientôt s'ajouter Materialized Tables, une fonctionnalité en cours de développement qui vise à simplifier la data transformation déclarative. Pour s'interfacer avec des bases de données tierces, Snowflake planche en outre sur deux nouveaux types de tables. En cours de développement, le premier, Iceberg Tables, ouvrira une passerelle vers le format de table Apache Iceberg. Le second, External Tables for On-Premises Storage, permettra d'accéder depuis Snowflake à des systèmes de stockages déployés en interne, de type Dell Technologies et Pure Storage.

Lors de son entrée en bourse en septembre 2020, Snowflake a levé 3,4 milliards de dollars. La société compte plus de 3000 salariés pour plus de 6 300 clients au niveau mondial.