Amazon booste SageMaker pour contrer Google Cloud dans l'IA

Dotée d'un outil de data préparation et d'un gestionnaire de pipelines, la plateforme intègre le data parallelism pour entraîner des réseaux de neurones de milliards de paramètres.

Lors de son événement clients 2020 qui se tient en ligne du 2 au 18 décembre, Amazon Web Services (AWS) met, comme l'an dernier, sa plateforme d'intelligence artificielle à l'honneur. Lors de son AWS re:Invent 2019, le cloud de Seattle avait complété SageMaker de briques d'auto ML, de débogage et d'expérimentation, mais aussi d'un studio de data science (SageMaker Studio). Cette année, le provider a une nouvelle fois multiplié les annonces autour de la suite d'IA. Objectif affiché : en faire un environnement capable d'industrialiser le développement de modèles de machine learning (ML) à l'image de Google Cloud.

Pour faciliter la mise en œuvre d'IA factory, SageMaker est d'abord équipé d'une solution d'intégration et de livraison continues (CI/CD) baptisée SageMaker Pipelines. Une brique qui s'inspire de Cloud AI Platform Pipelines, lancée par Google début 2020. "Pipelines permet de créer, d'automatiser et de manager des workflows de ML à grande échelle", explique Julien Simon, global technical evangelist, AI & ML chez AWS. Du paramétrage des data sets d'apprentissage au déploiement des modèles en passant par leur entrainement, elle orchestre toutes les étapes du processus d'IA. Proposant une série de templates de CI/CD préconfigurés, l'outil s'articule autour d'un registre conçu pour tracer l'historique des modèles et gérer leurs versions. Le tout visualisable graphiquement depuis SageMaker Studio.

Egalement annoncé lors d'AWS re:Invent 2020, SageMaker Feature Store complète SageMaker Pipelines d'un service de repository taillé pour gérer les features de ML de manière centralisée. L'objectif étant de simplifier et optimiser leur réutilisation d'un projet à l'autre.

Détecter les biais

Amazon a aussi levé le voile sur SageMaker Data Wrangler, brique très attendue qui, elle aussi, vient se nicher dans SageMaker Studio. Elle fait directement écho Dataprep de Google, qui s'adosse, elle, à la technologie de Trifacta, un spécialiste du domaine. "Avec Data Wrangler, vous avez la possibilité en quelques clics via SageMaker de vous connecter à une source, d'en explorer et d'en visualiser les données, d'exécuter des transformations, puis de faire un export sous forme de script Python pour automatiser l'ensemble", détaille Julien Simon. Evidemment, Data Wrangler s'intègre à Amazon S3, Amazon Athena ou encore Amazon Redshift. La solution comprend plus de 300 transformations pré-intégrées (pour diviser, renommer ou supprimer des colonnes, remplacer ou recoder des données…).

"Il s'agit détecter les labels corrélés avec des valeurs de feature spécifique, par exemple les personnes vivant dans une certaine ville qui ont plus de chance d'être sélectionnées"

En parallèle, Data Wrangler ouvre la possibilité d'implémenter des transformations sur-mesure en utilisant Pandas, PySpark ou PySpark SQL. "Pour les problèmes de régression et de classification, il permet, via la fonctionnalité Quick Model, de sélectionner un sous-ensemble de données, d'entraîner un modèle, puis de déterminer les features qui contribuent le plus au résultat prévu", ajoute Julien Simon.

Qui dit data préparation dit problématique de biais. Une question sur laquelle AWS ne fait pas l'impasse. Pour répondre à ce défi, Amazon met en avant un tout nouvel outil : SageMaker Clarify. Il détecte évidemment les biais dans les data sets. Mais pas seulement. Il permet aussi de les traquer une fois le modèle entrainé. "Il s'agit notamment de mettre le doigt sur les labels corrélés avec des valeurs de feature spécifique, par exemple les personnes vivant dans une certaine ville qui ont plus de chance d'être sélectionnées (par un modèle prédictif, ndlr)", détaille Julien Simon. Autres indicateurs analysés : une prédiction dont la précision sera différente d'un groupe de personnes à l'autre, ou encore un résultat divergeant entre profils équivalents au sein de groupes différents...

Un zoo de modèles

En vue de compléter l'édifice, Amazon a inauguré sa propre galerie de modèles, ou zoo de modèles dans le langage des data scientists. Un espace lui aussi accessible depuis SageMaker Studio. Baptisé SageMaker JumpStart, il compte plus de 150 modèles issus du TensorFlow Hub et PyTorch Hub, allant de la vision par ordinateur au natural language processing (NLP). A cela s'ajoutent une quinzaine de solutions clés en main couvrant les principaux cas d'usage du machine learning (détection de fraude, maintenance prédictive...).

Pour finir, AWS a profité de son événement pour inaugurer la prise en charge du data parallelism dans SageMaker. "En distribuant les traitements de manière parallélisée sur plusieurs couples d'instances GPU et CPU, l'objectif est de faciliter l'apprentissage sur des data set pesant des milliers de Gb", précise Julien Simon (voir sa présentation en vidéo pour plus de détails). Le défi ? Donner les moyens d'entrainer des réseaux de neurones comptant des milliards de paramètres. Les cas d'usage typiques ciblés ici sont, là encore, la reconnaissance d'images ou le NLP.