Gouvernance des données & IA : Snowflake montre la voie

Gouvernance des données & IA : Snowflake montre la voie Le spécialiste du data warehousing organisait cette semaine sa conférence annuelle. Il y a annoncé une vague de nouveaux produits autour de la gouvernance de données, de l'IA et de l'interopérabilité.

"Le Data Cloud de Snowflake a explosé en popularité au cours des dix dernières années, grâce à ce que vous avez construit sur notre plateforme. Nous satisfaisons désormais cinq milliards de requêtes par jour, presque autant que Google", s'est enthousiasmé Sridhar Ramaswamy, CEO de Snowflake, durant sa keynote d'ouverture, lors de la conférence annuelle de l'entreprise qui se tenait du 3 au 6 juin à San Francisco.

Pensée comme un entrepôt de données pour le cloud, la société californienne, fondée en 2012 dans la Silicon Valley par deux Français, Benoît Dageville et Thierry Cruanes, avec Marcin Żukowski, a profité de l'événement pour annoncer une foule de nouvelles fonctionnalités. Avec, en premier lieu, des annonces autour de ce qui suscite actuellement moult débats et inquiétudes au sein des entreprises, notamment européennes : la gouvernance des données.

Cap sur la gouvernance des données

Nombre d'entreprises font aujourd'hui face à une augmentation drastique de la quantité de leurs données, et à la nécessité de les traiter, notamment au service de l'intelligence artificielle (IA) avec l'essor des grands modèles linguistiques (LLMs) dans la lignée de ChatGPT. Pour répondre à cette problématique, Snowflake a annoncé des avancées sur Horizon, sa solution de gouvernance, qui intègre des capacités de conformité, de sécurité, de confidentialité, d'interopérabilité et d'accès.

Parmi ces nouvelles fonctionnalités, une internal marketplace vise à permettre aux utilisateurs de partager des données, modèles et applications au sein de l'organisation, avec des options de contrôle permettant de limiter qui peut y accéder. Cette offre inclut également le partage de modèles d'IA, Iceberg Tables et Dynamic Tables.

L'autre grande annonce en matière de gouvernance s'appuie sur la technologie de Neeva, un moteur de recherche acquis par Snowflake en mai 2023. Baptisée Universal Search, elle permet aux utilisateurs d'effectuer des recherches en langage naturel dans le Data Cloud de Snowflake pour identifier les produits de données dont ils ont besoin. "Neeva était en concurrence avec Google Search et Bing, et nous avons intégré ça dans Snowflake, on peut dire qu'on a désormais Google Search dans Snowflake", affirme Benoît Dageville, cofondateur de Snowflake.  "Snowflake a été construit avec l'idée de proposer un catalogue universel pour les données de l'entreprise, le Data Cloud. L'ambition d'Horizon est de faciliter l'exploration et la découverte de ce catalogue."

Cap sur l'IA

Autre gros morceau des annonces : l'IA, en particulier l'IA générative et les LLMs, que les entreprises s'efforcent de s'approprier au service de cas d'usages concrets. L'entreprise enrichit ainsi Cortex, service facilitant la création d'applications à base d'IA, de deux nouvelles fonctionnalités. Baptisées Cortex Analyst et Cortex Search, elles permettront aux utilisateurs de développer des chatbots en quelques minutes à partir de leurs données structurées et non structurées. Cortex Analyst est construit avec les modèles Llama3, de Meta, et Mistral Large, tandis que Cortex Search exploite également la technologie de Neeva.

En démocratisant la création de chatbots, Snowflake veut permettre aux employés d'accéder plus facilement aux informations au sein de l'entreprise. Une autre fonctionnalité, Cortex Guard, vise à éviter les catastrophes autour de l'IA générative en s'assurant que les chatbots ne prononcent pas de propos haineux ou injurieux.

"L'IA ouvre des opportunités formidables : pour la première fois, n'importe qui au sein de l'entreprise peut effectuer des requêtes auprès de l'IA en langage naturel, et obtenir des informations dont il a besoin. En matière de confiance et de sécurité, on doit toutefois placer la barre encore plus haut lorsqu'on fait de l'IA pour les entreprises plutôt que pour les consommateurs", a déclaré Sridhar Ramaswamy lors de sa keynote d'ouverture.

Les mises à jour de Cortex AI ne se limitent pas à la création de chatbots. L'entreprise y a également ajouté un AI & ML Studio, une interface no-code permettant de démocratiser le développement de l'IA et ainsi de faire face à la pénurie de codeurs qui freine de nombreuses entreprises. Document AI doit de son côté, comme son nom l'indique, permettre aux professionnels d'extraire facilement du contenu de documents (factures, contrats…) en utilisant le LLM Arctic de Snowflake, lancé en avril dernier.

Renforcement du rapprochement avec Nvidia

Une série d'annonces sur l'IA ne serait pas complète sans un renforcement du partenariat entre Snowflake et Nvidia, entamé l'année dernière. Snowflake adopte ainsi le logiciel Nvidia AI Enterprise pour intégrer les microservices de NeMo Retriever dans Snowflake Cortex AI. Snowflake Arctic est en outre désormais entièrement pris en charge par le logiciel Nvidia TensorRT-LLM. Tout cela vise à faciliter encore la création d'applications d'IA par les clients de Snowflake.

"L'actif le plus précieux d'une entreprise consiste dans ses données, qui se trouvent dans Snowflake", a déclaré Jensen Huang, patron de Nvidia, en duplex depuis Taipei. "Nous sommes à l'aube d'une nouvelle révolution industrielle où l'enjeu est désormais d'exploiter ces données à l'aide de l'IA, et ce de la manière la plus rapide possible, le time to market revêtant désormais une importance vitale. Or, la baisse du temps d'entraînement dépend à la fois du matériel et du logiciel." D'où le caractère stratégique de ce rapprochement entre le ténor du matériel IA avec ses GPUs (Nvidia) et le spécialiste du logiciel qu'est Snowflake.

Une nouvelle solution en faveur de l'interopérabilité

Snowflake a également annoncé le lancement de Polaris Catalog, une implémentation de catalogue ouvert et neutre vis-à-vis des fournisseurs pour Apache Iceberg, un format open source conçu pour améliorer la gestion des grands ensembles de données. Celui-ci permet notamment la mise en œuvre de data lakehouses, de data lakes et d'autres architectures modernes de gestion des masses de données. Il connaît une popularité croissante avec la montée de l'IA. Avec Poralis Catalog, Snowflake entend permettre aux utilisateurs de disposer d'un endroit unique et centralisé où n'importe quel moteur puisse accéder aux tables Iceberg d'une organisation, avec une interopérabilité complète et ouverte.

"Polaris Catalog prolonge l'engagement de Snowflake envers Apache Iceberg en tant que standard ouvert de choix, et signale l'intention des leaders de l'industrie de permettre aux clients et à la communauté Iceberg au sens large d'exploiter leurs données par le biais d'une approche ouverte et neutre, favorisant l'interopérabilité entre les moteurs sur ces données", déclare Christian Kleinerman, EVP of Product de Snowflake. L'entreprise s'est de plus engagée à rendre sa solution open source dans les trois mois. "Polaris, c'est notre catalogue Iceberg qui va être totalement indépendant, un produit que l'on pourra donc utiliser sans le reste de Snowflake", précise Benoit Dageville.

Résidence des données

Snowflake a enfin annoncé une extension de son programme de Data Sovereignty à l'intérieur de l'UE, sans toutefois donner beaucoup de détails sur celle-ci. Ce programme vise à conserver les données des utilisateurs européens à l'intérieur des frontières régionales de l'UE, l'objectif étant d'assurer la conformité avec les règlements encadrant de plus en plus étroitement la résidence des données, comme le Data Governance Act. Dans la mesure où il doit fonctionner avec les clouds des Gafam, la notion de souveraineté demeure cependant toute relative. Aux États-Unis, Snowflake proposera en outre un environnement distinct aux clients du ministère de la Défense.