Match des studios de data science : Dataiku, champion de l'ergonomie

Face aux poids lourds du domaine que sont IBM ou SAS, la start-up française tire son épingle du jeu. Mais chaque acteur de notre comparatif possède ses points forts.

Un moteur pour créer des systèmes de machine learning : c'est ainsi que le Gartner définit ce qu'est une plateforme de data science. "Par extension, il s'agit d'un environnement qui couvre l'ensemble de la chaîne d'analyse de la donnée : de la collecte et la préparation des informations jusqu'à la data visualisation en passant par le stockage et la modélisation", précise Yves Cointrelle, directeur de la stratégie et du développement de la business intelligence au sein de l'ESN Viséo. "Ce type d'outil intègre en général des modèles et algorithmes standards, de type régression linéaire, forêts aléatoires… qu'il est possible de compléter en allant piocher dans des bibliothèques open source, R ou Python." Sur ce segment, les solutions se distinguent principalement en termes de langages supportés, de qualité ergonomique, de data visualisation, ou encore par leur capacité à intégrer en un seul produit toute la chaîne de traitement.

Comparatif des Data Science Platforms
Nom	Langage(s) supporté(s)	Ergonomie	Bonne qualité en dataviz	Mode cloud/SaaS	Plateforme intégrée	open source
Dataiku Data Science Studio	Python (natif), R, Scala...	X			X
IBM Data Science Experience	Python, R et Scala			X
Knime Analytics Platform	Python, R et Scala				X	X
Microsoft Server R*	R
Rapidminer	Python et R			X	X
SAS Viya	SAS (commence à intégrer R et Python)		X
Les acteurs listés dans ce tableau ont été sélectionnés sur la base des éditeurs les mieux placés dans le dernier Magic Quadrant du Gartner sur les plateformes de data science, dans les catégories leaders et visionnaires. * Microsoft dispose aussi d'un outil de machine learning en mode cloud (Azure ML)

Sur le marché des plateformes de data science, se distinguent deux grandes catégories de fournisseurs. Des éditeurs historiques, d'une part, qui proposaient des outils de data mining adossés à des bases relationnelles avant de se positionner dans la data science (c'est le cas d'IBM ou SAS). De nouveaux acteurs, d'autre part, mettant en avant des solutions en général très intégrées et nativement big data. "Ces derniers mois, IBM et SAS ont répondu à ces nouveaux entrants en lançant des plateformes également orientées big data, compatibles avec les infrastructures de traitement distribué Hadoop et Spark", commente Didier Gaultier, directeur data science pour la société de conseil et d'intégration Business&Decision.

SAS : champion de la data visualisation

Bouzid Ait Amir, responsable du pôle analytics chez Keyrus insiste : "La nouvelle solution de SAS, Viya, se détache nettement en matière de data visualisation." Ce que Patrice Michel, manager en data science au sein de l'agence digitale Wide (groupe Micropole), confirme : "Avec sa brique SAS Visual Analytics, Viya a clairement l'avantage dans ce domaine."

Qu'en est-il de l'offre d'IBM (Data Science Experience) ? "C'est mon coup de cœur", poursuit Patrice Michel. "Cette nouvelle plateforme transcende les limitations de l'offre de data mining historique d'IBM, SPSS." Utilisable à la fois en local et en mode cloud, Data Science Experience prend aussi bien en charge les langages Python et Scala, que l'environnement R. "Elle est aussi intégrée à la distribution Hadoop d'Hortonworks ce qui constitue clairement une avancée comparé à SPSS", insiste le consultant.

Une particularité chez Knime : l'open source

Quant à la technologie de Dataiku (seul français présent dans notre comparatif), elle se démarque par son caractère très packagé et intégré. Ce qui le met à la portée aussi bien des data scientists confirmés que débutants. "La grande force de Dataiku Data Science Studio réside dans la qualité de son ergonomie", reconnaissent en cœur Bouzid Ait Amir et Patrice Michel. L'outil permet de créer un modèle en quelques clics, tout en industrialisant en toile de fonds l'ensemble de la chaine de traitement (collecte, préparation des données…).

Quelques solutions de notre comparatif présentent des particularités. C'est le cas de Knime qui à la différence des autres est un produit open source. "De ce fait, cet éditeur a tendance à mieux gérer les tests de non régression au moment des mises à jour pour faire en sorte que les librairies open source utilisées fonctionnement toujours dans les nouvelles versions", souligne Didier Gaultier. Certains préféreront se tourner vers des solutions propriétaires. Un domaine où le leader de la statistique SAS reste une valeur sûre. "SAS fournit des garanties de qualité qui demeurent une référence sur le marché, notamment quand il s'agit de faire tourner des indices sensibles", pointe Yves Cointrelle chez Viséo.

Et Didier Gaultier de préciser : avec le langage propriétaire de SAS, "vous disposez certes d'un nombre de fonctionnalités moins important que dans l'open source. En revanche, vous n'aurez pas de problème de rétrocompatibilité lors des montées de version."

Le langage : un choix stratégique

En termes de technologie de modélisation cette fois, c'est Microsoft qui se distingue. Issue du rachat de Revolution Analytics en 2015, sa plateforme de data science s'adosse à l'environnement open source R. Elle a d'ailleurs été baptisée R Server en référence à ce dernier. "R Server permet de paralléliser les calculs programmés en R sur une infrastructure Hadoop ou une base SQL Server, ce que ce langage ne permet pas de réaliser en natif", explique Yves Cointrelle. Seul problème : pour bénéficier de cette parallélisation, il sera nécessaire d'implémenter des fonctions R non-standards (et donc propriétaires) conçues par Microsoft. "Du coup, les bibliothèques R open source disponibles sur Internet ne pourront pas bénéficier de cette possibilité de parallélisation", pointe Bouzid Ait Amir.

R Server est-il un point de passage obligé pour paralléliser des calculs en R ? "Non. Le projet Sparkler permet par exemple de paralléliser des modèles R sur l'infrastructure Spark", indique Patrice Michel.

Enfin au moment du choix d'une plateforme de data science, il est important de garder en tête les spécificités de chaque grand langage de programmation proposé. Là où la logique de R séduira en général d'abord les statisticiens, celle de Python sera plus facile à prendre en main pour des informaticiens. "Globalement, R bénéficie d'un écosystème très fourni avec un très grand nombre de bibliothèques open source disponibles sur le web", commente Bouzid Ait Amir. "L'offre Python sera, elle, moins riche, mais Python présente l'avantage d'offrir une librairie (scikit-learn, ndlr) qui regroupe les principales méthodes de machine learning dans un seul package."