AWS re:Invent : Amazon s'attaque à Google dans l'IA automatisée

Lors de son événement clients à Las Vegas, AWS a déroulé les annonces dans le machine learning. Sa plateforme d'IA SageMaker est désormais équipée d'un studio de data science.

[De notre envoyé spécial à Las Vegas] "Durant ces deux dernières années, nous avons cherché à rendre le machine learning toujours plus accessible aux développeurs", a rappelé Andy Jassy, CEO d'Amazon Web Services (AWS) lors de la keynote inaugurale de re:Invent, l'événement annuel du cloud américain, dont le coup d'envoi a été donné ce 3 décembre à Las Vegas. Dans le sillage de cette vision stratégique, AWS a annoncé toute une série d'outils visant à compléter SageMaker, sa plateforme de data science. "Avec ces nouvelles briques, notre ambition est de rendre le process de développement et de déploiement des modèles d'apprentissage moins complexe en optimisant l'expérience utilisateur", précise Joel Minnick, patron du marketing des produits d'IA d'AWS.

SageMaker Autopilot est sans aucun doute la nouveauté la plus marquante de la série. Avec pour objectif d'automatiser la création de modèles de machine learning (ML), l'application s'apparente à la plateforme AutoML de Google, l'une des toutes premières commercialisées sur ce terrain (dès 2017) et qui fait référence sur le marché. Mais le créneau est également occupé par des start-up, comme DataRobot ou H2O.ai. Et aussi par Microsoft qui s'est lancé beaucoup plus récemment dans ce domaine avec son service Azure Automated ML. Toutes ses offres partagent la même philosophie : recourir à l'IA pour bâtir... des IA.

Andy Jassy, CEO d'Amazon Web Services, présente les nouveautés de SageMaker sur la scène du centre des congrès du Venetia Hotel à Las Vegas. © JDN / Antoine Crochet-Damais

Avec SageMaker Autopilot, Amazon n'a pas à rougir face à l'historique Google. En amont, la solution identifie le problème à résoudre (régression linéaire, classification binaire, classification multi-class) en réalisant une analyse statistique de l'échantillon de données à traiter. Puis, elle sélectionne le ou les algorithmes considérés les plus adaptés, et automatise le nettoyage et le typage des data sets d'entrainement. Est-ce des chaînes de caractères ? Des nombres entiers ou flottants, des catégories, du texte libre ? Ici, on pourra aussi faire appel à Amazon Ground Truth qui, à l'instar de Google AutoML, donne accès à des services humains pour labelliser les jeux de données d'images.

Rendre l'IA explicable

Autopilot lance ensuite plusieurs pipelines d'entrainement avec pour chacun un modèle configuré différemment. Une fonctionnalité d'hyperparameter tuning qu'AWS a commencée à intégrer 2018, mais qui se veut désormais mieux intégrée et plus ergonomique. Objectif : "benchmarker plusieurs modèles en vue de dénicher les paramètres se rapprochant le plus des prédictions attendues" (voir la slide ci-dessous). En parallèle, l'application choisit les instances Amazon EC2 qui se veulent les plus adaptées pour la phase d'apprentissage. "Nous avons voulu rendre Autopilot le plus transparent possible. Pour chaque déclinaison d'un modèle, l'outil génère un notebook détaillant le code et le process de construction. Ce qui rend le modèle explicable tout en facilitant sa réutilisation", insiste Joel Minnick.

Autopilot benchmarke plusieurs modèles en vue de dénicher les paramètres au plus proche des prédictions attendues. © JDN / Antoine Crochet-Damais

Parmi ses principales différences avec Google AutoML, SageMaker Autopilot ne pratique pas le transfer learning. Il ne réexploite pas les modèles déjà entraînés pour d'autres clients. "En revanche, il est toujours possible d'aller piocher dans des modèles tiers, proposés par exemple sur la place de marché d'AWS", indique Joel Minnick.

"SageMaker Debugger permet de chasser les biais dans les réseaux de neurones"

Aux côtés de SageMaker Autopilot, AWS a levé le voile sur Amazon SageMaker Debugger. "Cette fonctionnalité permet de chasser les biais dans les réseaux de neurones en identifiant les zones qui pèsent anormalement sur les résultats", explique Dr Matt Wood, vice-président des services d'intelligence artificielle d'AWS. Supportant les bibliothèques de deep learning TensorFlow, Keras, Apache MXNet, PyTorch et XGBoost, SageMaker Debugger analyse les tenseurs d'un réseau de neurones, couche par couche, tout au long du pipeline d'apprentissage. "Il vous alertera si les prédictions dérivent ou plafonnent au-delà d'une certaine couche", explique Julien Simon, global technical evangelist en IA chez AWS. De quoi réajuster ensuite les paramètres d'un réseau de neurones, et éventuellement sa profondeur ainsi que son taux de learning (c'est-à-dire la vitesse à laquelle ses coefficients évoluent).

SageMaker Model Monitor supervise les modèles d’apprentissage une fois déployés. © JDN / Antoine Crochet-Damais

Côté machine learning statistique, Amazon a annoncé Amazon SageMaker Processing. Taillée pour orchestrer les pipelines d'apprentissage statistique, cette extension part de la préparation des data sets (formatage, normalisation des données chiffrées, GPS…) et couvre jusqu'au déploiement des workloads de learning dans des containers Docker. Pour l'heure, SageMaker Processing se limite à la prise en charge de scikit-learn, la librairie open source, développée à l'initiative de l'INRIA, qui fait désormais l'unanimité sur le front des algorithme d'apprentissage statistique. "Comme toujours, nous nous calerons sur les besoins des clients. S'ils nous demandent de supporter le langage statistique R ou la librairie SparkML par exemple, nous pourrons les intégrer à la feuille de route de Processing", souligne Julien Simon.

Un studio de data science

Egalement lancé à l'occasion d'AWS re:Invent 2019, SageMaker Experiments vient piloter les projets d'expérimentation des data scientists les plus talentueux. "Au sein d'un même projet, le nombre de combinaisons d'algorithmes, de data sets et d'hyper paramètres est potentiellement infini. Experiments répond à cette problématique en simplifiant la mise en œuvre des différentes étapes des processus d'entrainement et d'évaluations de modèles", détaille-t-on chez AWS. "Une fois les modèles déployés, Model Monitor, que nous annonçons également aujourd'hui, permettra de les superviser et d'être alerté si les résultats dérivent."

Enfin pour coiffer le tout, AWS a dévoilé SageMaker Studio. Un environnement de développement intégré qui unifie l'ensemble des services cloud de la suite SageMaker, dont ceux cités plus haut. "Via SageMaker Studio, les développeurs peuvent coder leurs modèles, piloter leurs expérimentations, visualiser leurs data sets, gérer les débogages et monitorer les IA en production. Le tout via une interface graphique unique", résume Julien Simon. En ligne avec la politique produits d'AWS, SageMaker Studio et tous les modules sous-jacents restent accessibles en parallèle par le biais d'API.