Réussir la data science sur du big data en entreprise

La data science est une science nouvelle en entreprise. Elle a ses propres règles, méthodologies et modes de fonctionnement qui sont différents de la BI traditionnelle.

Contexte

La data science associée au big data est aujourd’hui sans aucun doute un des tous premiers facteurs d’innovation, et constitue en cela une formidable opportunité pour tous les secteurs d’activité.

Rappelons tout d’abord que la data science est une discipline hybride à l’extrême puisqu’elle regroupe le domaine des statistiques, du machine learning et de l’intelligence artificielle.

A ces matières, il faudra inévitablement ajouter la préparation et le recodage des données.

Un des enjeux métier d’importance est d’être capable d’agir sur les leviers qu’offre big data. Dans la mesure où celui-ci repose avant tout sur une démarche exploratoire, les leviers ne peuvent pas tous être nécessairement connus et anticipés dès le départ. Les modes de raisonnement (et donc de pilotage) liés à la data science sont donc différents de ceux d’un projet BI classique. La conséquence qui en résulte est que certains leviers seront découverts avec l’usage. Cela va s’appliquer aux objectifs métiers qui en découlent, et aux indicateurs de pilotage qui viendront soutenir ces objectifs.

L’approche de cadrage

Afin de bénéficier de ces avancées, l’entreprise doit s’adapter et adopter un plan de conduite à la fois ambitieux et transverse pour lutter contre les freins organisationnels et culturels.

La première étape consiste généralement à maitriser le plus possible les questions métier en jeu.

L’implication des personnes du métier est donc ici un élément essentiel. Il ne faut pas non plus se tromper d’objectif en termes d’attentes car la data science est en capacité de faire beaucoup de choses. Par exemple on peut utiliser la data science pour prédire ou bien pour expliquer. Ce choix doit en principe être fait le plus tôt possible car les algorithmes qui prédisent ne sont pas les mêmes que les algorithmes qui expliquent.

On collecte tout d’abord les besoins au cours d’ateliers métiers préalables. Cela peut être pour un tableau de bord, une analyse, un ciblage, un score, ou tout autre besoin faisant appel aux techniques et aux méthodologies de data science. Il est envisageable de faire une sensibilisation à la data science préalablement à l’atelier, si les métiers n’ont que peu d’idées de ce qu’il est possible de réaliser avec la data science, ce qui arrive parfois.

On rentre alors dans la deuxième partie du cadrage qui concerne la partie data. On peut utiliser certains algorithmes multivariés afin d’avoir une idée rapide si avec le scope de data dont on dispose, on est en capacité (ou pas) de répondre au besoin tel qu’il est exprimé par les métiers. Il faut ici essayer de voir le plus large possible coté data car l’intérêt est aussi d’ajouter des données externes comme le calendrier, les vacances, la météo, les caractéristiques géographiques, l’open data, etc. qui vont bien sûr correspondent au cas d’usage.

La troisième phase consiste alors à revenir vers les métiers avec plus de précisions sur la faisabilité de la demande et son cadrage si nécessaire. Des ateliers complémentaires pourront être organisés pour affiner la demande, notamment si les indicateurs à créer doivent être mieux définis (cas fréquent).

Cette approche préalable que l’on peut qualifier de Métier-Data-Métier, est celle qui a fait ses preuves dans le domaine de la data science.

Quelques points de vigilance

Cet article n’a pas l’ambition de faire une liste exhaustive des points de vigilance en data science, nous allons nous limiter à quatre d’entre eux :

Le choix des algorithmes
La validation du modèle
La présentation des résultats
L’industrialisation des modèles

Le choix des algorithmes et des méthodes, est un savoir-faire capital dans le domaine de la data science.

L’expertise sur les outils, fait partie intégrante de l’équation. De même, penser le modèle avec l’industrialisation en tête est un point clé de succès.

Le choix des algorithmes est donc fait en fonction d’un grand nombre de paramètres :

L’objectif métier à atteindre
La qualité et la disponibilité des données en entrée
Les contraintes d’industrialisation (comme par exemple le temps de calcul)
La vitesse d’exécution
Les outils qui doivent être utilisés
Le type d’infrastructure
L’enchainement des traitements en aval et en amont
La parallèlisation
Etc.

Les méthodes d’industrialisation seront ensuite contraintes en fonction des choix d’algorithmes, donc la course à la précision n’est absolument pas le seul critère à prendre en compte.

Un point important concerne par exemple la parallèlisation possible ou pas des traitements. Si un algorithme doit être parallélisé, ce choix doit être fait dès sa conception, car nombre de traitements en data science ne sont pas parallèlisables.

Avant toute mise en production, il est également important que les modèles établis soient testés avec le plus grand soin.

Cette évaluation se fait (pour rappel) principalement sur quatre critères qui sont :

La précision
La robustesse
L’absence de biais ou d’hétéroscédasticité
Leur usage par les opérationnels

Les quatre critères sont importants mais les deux derniers le sont particulièrement.

La précision dépend principalement de la taille de l’échantillon d’apprentissage et de la complexité du modèle. Plus le modèle est complexe, plus il est précis mais plus on risque un sur-apprentissage, particulièrement si la taille de l’échantillon d’apprentissage est petite.

C’est pourquoi il est indispensable de tester la robustesse qui permet de garantir que le modèle, une fois mis en production sur des données réelles, ne perdra pas trop en précision.

L’absence de biais, qui est souvent le plus difficile à diagnostiquer (et donc souvent négligé) est important et peut s’effectuer notamment en vérifiant les hypothèses, la méthodologie employée, ainsi qu’en effectuant une analyse poussée des résidus du modèle.

Au-delà du résultat lui-même, le métier doit également valider l’utilisation des modèles et s’assurer que celle-ci soit conforme aux attentes. Que l’algorithme soit encapsulé au final dans une application, une page web, ou même une API, il doit être utilisable par les métiers. Des tests avant recette devront donc être faits pour s’assurer que c’est bien le cas.

Il n’est pas du tout exclu de faire intervenir des équipes de design thinking pour améliorer l’ergonomie et/ou l’utilisabilité des applicatifs qui auront été produits en data science. C’est d’autant plus important que les résultats et les données produites par la data science devront très probablement être utilisées sur le terrain.

Le point suivant concerne la présentation des résultats aux décideurs et aux utilisateurs métier. Trop de projets data science échouent encore dans cette phase finale et cruciale car les data scientists n’arrivent pas à faire que le métier s’approprie les résultats obtenus avec un degré de confiance suffisant.

Le travail de data science est loin d’être fini lorsque les algorithmes fonctionnent et délivrent des résultats. Il faut en effet les interpréter, les transformer en langage métier, et les confronter à l’avis des experts métier.

Ce travail est indispensable car au final, il est fait pour les métiers, qui doivent donc pouvoir s’approprier ce qui est produit. Les explications doivent être pédagogiques et soutenues par de nombreux graphiques.

Une DataViz bien faite permet à des personnes extérieures au projet de s’approprier plus rapidement les résultats obtenus et assurera un meilleur "buy-in" des utilisateurs. Le gain se situera alors sur la réduction de l’effort d’accompagnement au changement.

Au-delà des livrables accompagnant les projets de data science, les use case devront être expliqués en faisant appel au data storytelling. Notre expérience dans le domaine montre que plutôt que d’expliquer une démarche data science souvent très complexe, il vaut mieux prendre quelques exemples concrets bien choisis, et suivre leur cheminement de bout en bout. Par exemple prendre l’exemple du parcours client de M. Dupont, sera bien plus parlant aux personnes sur le terrain que d’expliquer comment l’algorithme arrive au ciblage de telle ou telle offre.

Le dernier point de vigilance traité aujourd’hui est de rendre les résultats (par exemple de la connaissance client) disponible pour l’opérationnel et/ou au point d’interaction avec le client. Cela suppose que les modèles établis soient réellement industrialisés, par exemple au travers d’une application, d’une API, ou d’un site web, et qu’ils ne restent pas au stade de POC.

Il faut souvent vérifier un grand nombre de contraintes avant de mettre un modèle en production. Par exemple, voici une checklist non exhaustive de points à vérifier :

Toutes les données utilisées par le modèle en entrée seront-elle disponible dans un environnement de production ?
Le temps de calcul du modèle est-il compatible avec les contraintes de production ?
Le modèle peut-il fonctionner pendant la fenêtre de temps adéquate ?
Le temps de calcul sur l’environnement de production sera-t-il différent de celui qui a été mesuré pendant la modélisation ?
L’environnement de production est-il compatible avec les langages, les outils, et les librairies utilisées par le modèle ?
Les librairies utilisées pourront-elle être intégrées au modèle ?
Le modèle nécessite-t-il une boucle de rétroaction pour fonctionner ?
En cas de dégradation de la qualité des données comment le modèle peut-il réagir ?
Le modèle possède-t-il un mode de fonctionnement dégradé ?
Le modèle nécessite-t-il de paralléliser des traitements ?
Quel va être l’impact de la mise à jour de l’infrastructure, des outils et des langages sur le modèle ?
Le modèle sera-t-il paramétrable et par quel moyen ? Une API ? Une page Web ? Une APP ?
Le modèle est-il monitoré par un algorithme statistique de contrôle ?
Le modèle possède-t-il une vérification de l’hétéroscédasticité ?
Quel type d’alerte est prévu en cas de dysfonctionnement du modèle ?
La précision et la robustesse du modèle seront-elles monitorées ?

Il n’est pas question ici de recenser tout ce qu’il faut faire pour une mise en production en data science. Néanmoins, on peut affirmer que plus le mode de production a été pensé tôt et en amont, plus le modèle a de chance de s’industrialiser correctement.

Conclusion

La data science est une science nouvelle en entreprise. Elle a ses propres règles, méthodologies et modes de fonctionnement qui sont différents de la BI traditionnelle. Les connaitre et anticiper les problèmes est clairement la meilleure option pour mener un projet data science au succès.