Benoît Dageville (Snowflake) "L'objectif est de faire de Snowflake la plateforme d'IA la plus complète"

A l'occasion du Snowflake Summit qui se tient cette semaine, le co-fondateur français et président produit de la cloud data platform détaille sa stratégie pour 2022.

JDN. Quelle est la stratégie de Snowflake pour les mois qui viennent ?

Benoît Dageville est cofondateur et président produit de Snowflake. © Snowflake

Benoît Dageville. Au lancement de Snowflake en 2012, l'enjeu était de combiner big data et data warehouse dans un système unique réinventé pour le cloud. Ce système qualifié par certains de lakehouse permet d'associer d'immenses bases de données semi-structurées et structurées en bénéficiant de la performance d'un entrepôt de données. A partir de 2016, nous avons ajouté à l'édifice une couche de data collaboration et de sharing de données comparable à la logique de partage d'un Google Docs. Résultat : les différents tenants de Snowflake (ou comptes client, ndlr) peuvent désormais échanger des données entre eux.

Aujourd'hui, nous complétons la plateforme d'un environnement applicatif. C'est l'une des principales annonces de notre événement mondial qui se tient cette semaine. L'objectif est de permettre d'exécuter directement des data applications sur notre cloud (Snowflake Data Cloud, ndlr). Ces applications pourront ensuite être partagées avec d'autres utilisateurs de Snowflake via notre maketplace qui était jusqu'ici limitée aux jeux de données.

Quelle sont les grandes tendances que vous observez chez vos clients ?

Force est de constater que le machine learning et l'advanced analytics montent fortement en puissance depuis quelques mois. C'est pour répondre à ces besoins que nous avons mis au point Snowpark pour Pyhton. Avec cette brique, les données peuvent être directement exploitées par des applications en restant basées dans le Data Cloud du client. Ce qui garantit l'intégrité de leur sécurité et de leur gouvernance. Cet aspect est une demande forte.

Ces data apps pourront évidemment mettre en œuvre du machine learning. Pour répondre à ce cas d'usage, nous annonçons d'ailleurs la prise en charge des frameworks d'apprentissage machine comme Scikit-learn ou Tensorflow. La démocratisation de l'IA se fera grâce aux applications, et via leur mise à disposition et leur monétisation au travers de marketplace comme la nôtre. Nous en sommes convaincus.

"Les données étaient réservées à un tout petit nombre de collaborateurs il y a 10 ans. Ce sont désormais tous les profils de l'entreprise qui y accèdent"

Le mouvement est d'ailleurs déjà largement enclenché. Les entreprises ont pris conscience de l'importance de la data, et du cloud pour scaler. Les données étaient réservées à un tout petit nombre de collaborateurs il y a 10 ans. Ce sont désormais tous les profils de l'entreprise qui y accèdent pour prendre des décisions : le produit, le marketing, les ventes, le CEO... D'où les taux de croissance de que nous enregistrons (au premier trimestre 2022, Snowflake enregistre un chiffre d'affaires en hausse de 85% sur un an, à 422 millions de dollars, ndlr).

Est-ce que le no code / low code fait partie de votre stratégie ?

Les compétences en codage se raréfient compte tenu de l'explosion de la demande dans ce domaine. Le low code / no code répond à ce défi en démocratisant le développement applicatif. Mais cette approche reste limitée au bout du compte. Pour nous, la vraie révolution passera d'abord par des applications modernes créées par des développeurs professionnels et distribuées via un dispositif de marketplace. Ce qui implique en parallèle de réduire les frictions en cassant les silos technologiques. Pour répondre à ce second défi, Snowflake combine les modes de traitement : OLTP (traitement transactionnel, ndlr), data warehouse, data lake, machine learning... Résultat : le développement est unifié sur une seule plateforme et par conséquent largement simplifié.

Avec son environnement Python, la technologie issue du rachat de Streamlit contribue par ailleurs à faciliter encore la création d'applications basées sur Snowflake. C'est une première brique de développement low code. Nous continuerons à bâtir des solutions encore plus simple par-dessus. L'objectif étant d'améliorer la productivité des développeurs pour aboutir à une marketplace d'applications toujours plus riche.

Vos clients mettent-ils en œuvre des stratégies de data mesh ?

Tout a fait. C'est le cas de beaucoup de grandes organisations qui recourent à Snowflake en mode décentralisé. Dans la logique du data mesh, leurs business units et départements ont chacun une équipe data qui gère ses données de manière indépendante dans Snowflake. Ces équipes s'adossent à notre plateforme pour déployer leurs propres cas d'usage data puis les partager. Pour des raisons de sécurité et d'indépendance, elles peuvent recourir à des tenants et des comptes différents avec leur propre pricing et leur propre compute, tout en exposant via notre marketplace les données qu'elles souhaitent partager, que ce soit à tout ou partie de la structure ou à des clients, fournisseurs et partenaires. Elles peuvent aussi récupérer des data en provenance de fournisseurs externes utilisant notre offre.

"Le machine learning devient un énorme domaine d'investissement pour nous"

Snowflake permet ainsi de décentraliser le management des données, avec à la clé la possibilité de les connecter d'un bout à l'autre de l'organisation. Dans le même temps, notre offre permet de surfacer des données stockées dans des repositories tiers via ce que nous appelons les tables externes.

Vous avez acquis Streamlit, mais aussi CryptoNumerics pour vous renforcer dans la sécurisation des data sets. Il s'agit de vos deux premiers rachats. Amorcez-vous une stratégie de croissance externe ?

Non. Ces deux acquisitions visaient à mettre la main sur des technologies pour les intégrer à notre cloud en vue d'accélérer notre R&D. Nous avons passé du temps à évaluer leur coût d'intégration comparé au coût d'un développement fait maison. Notre stratégie d'acquisition n'a donc pas pour objectif de capter de nouvelles bases de clients.

Snowflake est-il déjà taillé pour le MLOps et les feature store ?

Snowflake permet ce type de cas d'usage, notamment grâce à UniStore que nous dévoilons à l'occasion du Snowflake Summit. Mais nous souhaitons faciliter encore leur mise en œuvre. Du feature store à l'online inference en passant par le MLOps, le machine learning devient un énorme domaine d'investissement pour nous. L'objectif est de faire de Snowflake la plateforme d'IA la plus complète.

Comment gérez-vous l'hébergement de Data Cloud ?

Sur le modèle des clouds publics, Data Cloud se répartit sur de nombreuses régions cloud à travers le monde. Nous en comptons 30 aujourd'hui. Ces régions Snowflake s'adossent chacune à une région cloud d'un des fournisseurs traditionnels : AWS, Microsoft Azure et Google Cloud Platform. Partant de là, notre plateforme est cloud agnostique. Quelle que soit la région du provider sous-jacent, son utilisation sera la même. Par conséquent, les applications développées dans Snowflake sont portables de manière transparente d'un cloud provider à l'autre. Dans le même temps, comme indiqué auparavant, nos régions peuvent échanger entre elles des données et métadonnées. Ce qui permet de répondre aux questions de souveraineté en ayant la possibilité de les stocker sur telle ou telle géographie.

Il est possible de répliquer ses datas d'une région Snowflake à l'autre pratiquement en temps réel. On peut ainsi les partager par plaques géographiques ou bénéficier de données en haute disponibilité (les données restent accessibles en cas de panne sur leur région principale d'exploitation, ndlr). Grâce à cette stratégie que nous avons baptisée "un cloud pour le monde", nous évitons aussi à nos clients de dépendre d'un cloud provider tout en offrant une solution de pilotage et de gouvernance des données transverse et simple d'utilisation.

Après un doctorat en science informatique à l'Université Paris 6, Benoit Dageville débute sa carrière comme chercheur au sein de l'European Computer Research Center. Il se spécialise dans la simulation des bases de données parallèles multi-thread. Après deux ans passés chez Bull, il est recruté par Oracle. Il est d'abord nommé consultant de l'équipe technique au sein du Parallel SQL Execution Group. Il rejoint ensuite le SQL Manageability Group comme architecte. En août 2012, il crée Snowflake avec Thierry Cruanes, un autre Français également titulaire d'un doctorat à Paris 6 qui l'avait accompagné chez Oracle, et Marcin Zukowski, le fondateur de Vectorwise.