Ces clouds qui automatisent l'IA sont-ils sérieux ?

Google AutoML, CustomVision.ai, H2O.ai, etc. De plus en plus de plateformes "as a service" sont conçues pour créer des modèles de machine learning sans nécessiter d'intervention humaine, ou très peu.

Depuis quelques mois, plusieurs éditeurs positionnés dans l'IA se sont lancés dans une nouvelle quête : proposer des services cloud de machine learning automatisé. La promesse est alléchante. A partir d'un set de données particulier, ces outils seraient capables de choisir sans intervention humaine l'algorithme le mieux adapté et d'optimiser le modèle d'apprentissage correspondant. Et ce, en vue d'une problématique bien précise. Pour prendre des exemples concrets, il pourrait s'agir de calculer à la volée des scores de prédiction commerciale en se basant sur un historique de vente. Ou, dans un tout autre registre, de reconnaître des types de produits particuliers au sein d'une base d'images numérisées.

Parmi les éditeurs en question figurent notamment Google (avec son service AutoML), mais aussi Microsoft (avec CustomVision.ai). Des pure player spécialisés en IA ont également investi le segment. C'est le cas de Clarifai, DataRobot, H2O.ai ou encore Knime. Avec une mention particulière pour ces deux derniers puisqu'ils trônent l'un comme l'autre en tête du dernier quadrant magique du Gartner sur les plateformes de data science et de machine learning.

Transfert learning et ensemble de modèles

Sous le capot, les techniques motorisant ces offres sont assez diverses. "DataRobot a par exemple recours à des méthodes d'ensemble de modèles. L'idée est de confronter entre eux plusieurs modèles : random forest, réseaux neuronaux… Puis de sélectionner celui dont le niveau d'erreur estimé est le plus faible", explique Aziz Cherfaoui, directeur technique au sein du cabinet de conseils français Keyrus. "Ce type de machine learning est cependant difficile à industrialiser car si le contexte d'apprentissage évolue, le modèle ne sera plus valable. Par exemple dans le cas d'un algo de détection de contrefaçons, si un faussaire change de méthode, le moteur pourrait ne plus le détecter."

"Un outil automatique ne contribuera en général qu'à une toute petite partie du projet d'intelligence artificielle"

Autre technique utilisée, le transfer learning consiste, lui, à s'inspirer de modèles qui ont déjà fait leurs preuves pour en créer de nouveaux. "Typiquement, un réseau neuronal qui a appris à reconnaître des chats en photo pourra être en partie repris pour détecter des chiens. Ainsi, toutes ses couches réutilisables dans le cas du chien seront conservées : est-ce que l'objet a une tête, des oreilles, quatre pattes ?", détaille Aziz Cherfaoui. "Cette technologie qui fait gagner beaucoup de temps est utilisée par Google dans AutoML. Elle lui permet de mettre en œuvre du transfert learning y compris entre modèles de différents clients".

Quels sont les limites de ces outils ? "Il faut bien comprendre que 90% du temps d'un projet d'IA concerne en général la phase de préparation des données en amont du travail sur le modèle d'apprentissage. Ces solutions d'automatisation ne ciblent par conséquent que les 10% restants. Partant de là, les utiliser se révèle peu intéressant financièrement dans la plupart des cas", estime Didier Gaultier, directeur data science au sein de l'ESN Business & Decision. Le plus souvent, les sources de données à exploiter seront en effet éclatées dans de multiples systèmes, avec parfois des informations qui se contredisent. Certaines data pourront aussi se révéler fausses, car mal saisies à la source. Un chantier de nettoyage et de consolidation sera par conséquent nécessaire au préalable.

Pour être analysés par le modèle, les contenus dits non-structurés (de type son, image, texte libre) devront en outre être préalablement catégorisés. "Il sera nécessaire de réaliser une partie de ce taggage à la main, notamment si le processus d'apprentissage doit tenir compte d'un contexte spécifique. On retrouve cette problématique dans l'analyse de sentiment, et notamment d'avis de clients : à partir de quelques lignes de texte saisies dans un formulaire web, la machine ne pourra pas comprendre seule qu'un client a été mal accueilli, mal écouté, ou qu'il n'a obtenu qu'une réponse partielle à sa question. Les offres d'IA automatisées ne peuvent gérer directement cette partie. Un humain devra commencer par créer une première matrice de liens entre les situations décrites par les clients et les sentiments correspondants. Une matrice sur laquelle la solution d'IA automatisée pourra ensuite se baser pour générer son modèle d'apprentissage", indique Didier Gaultier.

Face à la nécessité de préparer les données, Google avance une solution. "Avec son service AutoML, il propose en parallèle une prestation humaine centrée pour nettoyer et taguer les données. L'objectif étant d'aboutir assez rapidement à des data set exploitables par son service", souligne Aziz Cherfaoui chez Keyrus.

Principal obstacle : la complexité de l'IA

Pour certains projets d'intelligence artificielle, le ratio temps de préparation / automatisation peut néanmoins s'inverser. C'est le cas notamment si une base de données à la fois complète, juste, structurée et non-biaisée pré-existe. "C'est rare mais tout à fait possible. Nous avons par exemple accompagné un fabricant de shampoings qui cherchait à prévoir et ajuster les dosages de ses produits de coloration capillaire en fonction du pigment, du type de cheveux... Il disposait déjà de toutes les datas dans un environnement bien propre et 'labélisé'. En plus, il devait générer un très grand nombre de modèles pour prendre en compte toutes les hypothèses. Un outil de machine learning automatisé était par conséquent pleinement adapté", argue Didier Gaultier. "Du fait de sa complexité, un modèle qui s'auto-paramètre a par ailleurs besoin, par définition, de gros volumes d'informations pour bien fonctionner. Ce qui était également le cas ici. Toutes les conditions étaient donc réunies."

"Tout n'est pas automatisable si l'on souhaite aboutir à un learning de qualité"

Au-delà du processus de préparation des data se posera aussi la délicate question de la qualité intrinsèque des données. A la manière du panel d'un institut de sondage, elles devront être le plus représentatives possible. "Si les exemples soumis au modèle sont erronés ou ambigus, le résultat du machine learning sera lui-même erroné et ambigu", insiste Aziz Cherfaoui. "Certains algorithmes permettant de reconnaître le genre d'une personne en photo atteignent des précisions bien meilleures quand il s'agit d'individus blancs. Ce qui s'explique typiquement par un jeu d'images d'apprentissage à l'origine déséquilibré au détriment des personnes noires. S'il existe un biais dans les contenus de départ, un outil automatique ne changera rien au problème." De l'ajustement du modèle dépendra ensuite sa capacité à en déduire une loi générale. "Si l'apprentissage n'est pas suffisant, le résultat perdra en justesse. Si au contraire il va trop loin, on passera à côté de la vision d'ensemble en restant trop dans les détails. On ne verra plus rien", prévient Aziz Cherfaoui. "Là encore le machine learning automatique est pour l'heure incapable de résoudre l'équation de ce fin dosage." En l'état, l'intervention d'un data scientist reste nécessaire.

"Au final, les applications de machine learning automatisé restent pour le moment surtout des béquilles pour avancer sur un terrain souvent encore vierge. Du nettoyage des informations d'apprentissage à l'optimisation de leur représentativité en passant par le choix de l'algorithme et le réglage de l'équilibre du modèle, tout n'est pas automatisable si l'on souhaite aboutir à un learning de qualité", conclut Aziz Cherfaoui.