Comparatif des feature store : Tecton surplombe Feast et Hopsworks

Les boutiques de caractéristiques automatisent le cycle de vie des données d'apprentissage venant nourrir les modèles d'IA. Le défi : assurer la cohérence des résultats.

Dans le cadre d'une IA factory, un feature store se révèle central. Sa principale vocation ? Capitaliser sur les fonctions d'apprentissage déjà créées pour de nouveaux projets de machine learning. Les feature (ou caractéristiques) renvoient aux informations utilisées pour alimenter les modèles. Dans le cas d'une IA de recommandation sur une plateforme de streaming musical, par exemple, il s'agira des morceaux déjà écoutés, de leur durée de lecture ou de leur classement en termes d'audience. Grâce à un feature store, la plateforme de streaming pourra typiquement réutiliser ce ranking de trafic pour d'autres modèles, sur le front du ciblage publicitaire par exemple.

Le feature store est investi par toute une myriade de pure player dont trois se détachent nettement : Feast, Hopsworks et Tecton, qui a été créé par les développeurs à l'origine de la plateforme d'IA d'Uber. Au match des fonctionnalités, ce dernier sort nettement gagnants (voir le tableau ci-dessous).

Comparatif des feature store
	Feast	Hopsworks	Tecton
Feature registry	x	x	x
Online feature serving	x	x	x
Génération de data set	x		x
Ingestion de données temps réel		x	x
Feature transformation			x
Monitoring			x
Service managé		x	x
Open source	x	x

Du côté des clouds, Amazon Web Services (AWS) et Google commercialisent tous deux des référentiels de caractéristiques intégrés à leur plateforme d'IA. Il s'agit de SageMaker Feature Store pour le premier et de Vertex AI Feature Store pour le second. L'offre d'AWS présente l'avantage de s'intégrer à son service Data Wrangler. A la différence de Cloud Dataprep de Google, qui repose sur une application tierce signée Trifacta, cet outil ne gère pas seulement le batch mais aussi les transformations de données et la mise à jour des data sets en temps réel. Quant au cloud Azure de Microsoft, il n'intègre pas nativement de feature store. Le cas échéant, on pourra se tourner vers celui de Databricks. Le delta lake de San Francisco est en effet disponible sous la forme d'un service managé sur Azure. Une offre également proposée sur AWS et Google Cloud.

Au chapitre des studios de data science, Dataiku et DataRobot ne sont pas équipés de feature store intégré. A la différence de H2O avec son AI Feature Store.

Les piliers fonctionnels d'un feature store

Registre de caractéristiques. Il assure la standardisation du formatage et du calcul des caractéristiques entre les phases d'apprentissage et de production des modèles (ou de prédiction en situation réelle). Il documente et catalogue les feature en vue de les réutiliser de projet en projet.
Streaming des données. Une fois le déploiement réalisé, on attend d'un feature store d'être capable d'intégrer les informations de terrain en temps réel, via du streaming de données, dans l'optique in fine de réalimenter et enrichir le modèle en permanence.
Transformation des caractéristiques. Il s'agit ici d'orchestrer les pipelines de données en vue d'assurer le backfilling et de calculer en continu de nouvelles valeurs de caractéristiques. Et ce de l'entraînement à l'exécution en production en passant par le test et la validation des modèles.
Monitoring. Le monitoring des pipelines d'alimentation vise à détecter les potentielles dérives. "L'objectif est de s'assurer de la cohérence des données d'apprentissage avec les données de terrain utilisées par le modèle en production", souligne Didier Gaultier, patron du pôle data science et IA de Business & Decision (filiale d'Orange). En période de Covid, les modèles prédictifs portant sur les stocks médicaux ont par exemple subi de plein fouet ce phénomène de data dreefting.
FinOps. "On attend également d'un feature store des fonctions de FinOps qui calculent le coût d'une caractéristique en fonction de son degré d'utilisation et de mutualisation", ajoute Didier Gaultier. Une fonctionnalité, qui n'est pas proposée par les trois spécialistes analysés dans ce comparatif, mais qui se révèle particulièrement utile dans le cas d'un feature store en mode cloud, avec des coûts de stockage et de maintenance prédictibles.

Lors de la phase d'apprentissage, le feature store est également là pour garantir l'intégrité des data sets. "Les données d'entrainement peuvent contenir par erreur des informations dédiées au test du modèle une fois formé. Ce qui évidemment fausse les résultats. On parle alors de feature leak", explique Ismaïl Lachheb chez Octo Technology. Une telle fuite est vite arrivée. "Dans le cas d'une database avec une dizaine de jointures (entre les tables, ndlr), il suffit d'une erreur sur l'une d'entre elles pour que le set d'apprentissage accède à des données destinées aux test", indique le data scientist. Le feature store s'érige ainsi en brique clé en vue d'aboutir à une IA à de qualité.