Les synthetic data, une clé pour entraîner son IA en toutes circonstances

Les synthetic data, une clé pour entraîner son IA en toutes circonstances Le volume de données d'entraînement est parfois trop faible pour aboutir à un modèle de machine learning généralisable, c'est-à-dire en phase avec les résultats attendus. C'est là qu'interviennent les données synthétiques.

Lors d'un projet de machine learning, il arrive que le corpus d'entraînement soit trop peu volumineux pour aboutir à un modèle généralisable. Résultat : l'application ne parvient pas à générer les réponses attendues. Plusieurs raisons peuvent expliquer ce manque d'informations. Les données d'entrainement sont parfois coûteuses ou tout simplement inexistantes, ce qui peut être le cas dans la modélisation des risques financiers (en matière de fraude par exemple) ou dans la voiture autonome. La solution ? Les données synthétiques. Entendez par là des données créées artificiellement de manière à être les plus réalistes possibles.

"Pour créer des données synthétiques, on peut avoir recours à un modèle génératif", explique Sergio Winter, machine learning engineer chez Revolve, entité de l'ESN Devoteam experte AWS. Ce modèle peut être très simple. "A partir d'une courbe de Gauss associant par exemple le nombre d'individus d'une population a leur taille, il suffit de tirer un nombre aléatoire entre 0 et 1 et d'identifier la taille correspondante sur cette courbe. On aboutit ainsi à une donnée synthétique", détaille Sergio Winter.

Parmi les modèles génératifs figurent les modèles autogénératifs. Les plus célèbres sont GPT-3, qui est taillé pour l'écriture automatique, ou encore BigGAN dans la création d'images. Autre exemple : les generative adversarial Networks (GAN). Une technologie issue de la théorie des jeux qui combine deux réseaux de neurones : l'un discriminant vise à prédire l'appartenance des données à des groupes différents, l'autre génératif avec la mission de tromper le modèle discriminant en estimant la probabilité de données conjointes. "Le recours à des moteurs de simulation 3D pour créer des données synthétiques dans le cadre de la reconnaissance visuelle est souvent plus facile à mettre en œuvre que les GAN, qui demandent encore généralement beaucoup de données et de travail", pondère Sergio Winter.

Aux côtés des données synthétiques, une autre technique permet d'enrichir le data set. Il s'agit de la data augmentation. "Elle consiste à altérer une donnée existante pour en créer une nouvelle", résume Sergio Winter. Dans le cas d'une base d'images par exemple, le processus d'altération pourra passer par des rotations, des changements de teintes, l'ajout de bruits… l'objectif étant d'aboutir à des déclinaisons des images de départ.

Prendre garde aux biais

"Une fois l'apprentissage réalisé sur des données synthétiques, les tests peuvent être probants. Avec les réseaux de type GAN, la génération d'images est assez bluffante, même si cette technologie reste une boîte noire complexe à appréhender", reconnaît Marc Sanselme, fondateur de Scopeo, cabinet de R&D spécialisé en machine learning. "Il n'existe pas moins un fossé avec les modèles entraînés à partir de vraies data. Leurs résultats demeurent nettement plus précis." Pour minimiser les biais susceptibles de surgir, Sergio Winter recommande de mixer les data créées artificiellement avec des exemples réels. "Une fois la phase d'apprentissage réalisée, le modèle devra évidemment être également testé à partir de véritables données", ajoute le consultant.

"Le synthetic data peut contribuer à anonymiser les données"

Au-delà de l'accroissement du volume des contenus d'entrainement, le synthetic data présente un autre avantage. "Il peut contribuer à anonymiser les données", souligne Sergio Winter chez Revolve. Un cas d'usage qui se révèle intéressant pour éviter d'ouvrir à l'équipe de data science l'accès à des informations client confidentielles. En vue, par exemple, de travailler sur un modèle prédictif dans l'e-commerce.

Plusieurs éditeurs se positionnent

Confrontées à des modèles complexes, les données synthétiques trouvent assez vite leurs limites. "Nvidia est parvenu à des images de très haute résolution par le biais de GAN. Les réseaux de neurones convolutionnels en livrant des résultats covariants par translation sont parfaitement adaptés au traitement d'image. Mais cela reste de l'image. Une conduite de véhicule par exemple implique beaucoup d'autres dimensions, trop complexes à modéliser, entre la trajectoire (vidéo), la vitesse, l'accélération, les commandes associées…", explique Marc Sanselme. Prise avec des pincettes, la synthetic data peut néanmoins s'appliquer à un grand nombre de cas d'usage.

Aux Etats-Unis, les éditeurs centrés sur les données synthétiques se multiplient dans l'IA. Parmi eux figure notamment Tonic.ai qui a bouclé un tour de table 35 millions de dollars en septembre dernier. Dans cette catégorie, on compte également Mostly AI ou encore Gretel.ai, qui viennent respectivement d'annoncer des levées de 25 et 50 millions de dollars.