Quel est ton profil de Data Scientist ?

Face à une demande en « machine à algorithmes », on constate qu’il existe aujourd’hui des solutions relativement différentes, ce qui complexifie le choix des entreprises. Pour essayer d’y voir (un peu plus) clair, je me suis essayé à faire une mini typologie des Data Scientists.

Le type A : les Aventuriers (Signe Python, Ascendant Hadoop)

Les Aventuriers sont des surdoués, aux capacités multiples (informatiques, statistiques, mathématiques, algorithmiques, etc.) qui utilisent des « langages » dédiés comme Python, R ou Sparks, et n’hésitent pas à se retourner vers Hive pour manipuler les données.

Ces « data scientists » experts, forcément geeks, suivent l’actualité foisonnante dans la production de techniques de modélisation et dans l’application du « stream learning ».

Plutôt que de s’intéresser au combat entre Batman et Spiderman, ils s’intéresseront aux compétitions sur Kaggle entre XGBoost et Random Forest.

Ils s’attacheront à transformer des données « brutes » dans des « features pertinents », porteurs d’informations. Ils sélectionneront le meilleur algorithme capable de répondre aux contraintes posées sur les volumes, la rapidité de réponse ou la fréquence des mises à jour.

Ils se spécialiseront sur les données textuelles, « image ou son », ou traditionnelles. Pour eux, l’ascension du R² est aussi mythique que celle du K2, et ils se mettent en compétition sur Kaggle pour se benchmarker.

Ces athlètes de la modélisation sont les « géants » du métier… et il faut arriver à les suivre, et aussi à les manager. Pas facile de leur apporter le frisson de l’exploit dans des structures lourdes. Aussi, on les retrouve beaucoup plus dans les directions de start-up.

Le problème annoncé pour ce type de profil est sa rareté.

A la fois parce que les enseignements sont récents, mais aussi parce qu’il s’agit d’un métier qui demande un investissement personnel quotidien, l’amour de la compétition et du dépassement de soi.

Même s’il a été cité comme le métier « le plus sexy », c’est un métier où ce type d’expert se sent un peu seul et incompris (sauf avec ses pairs).  Dans une entreprise qui débute sur le sujet, l’Aventurier a le sentiment de jouer à Walking Dead dans un Parc Disney…

Mais hormis ce sentiment d’incompréhension, la demande est importante, et les salaires grimpent… Mais bonne nouvelle, comme ces datas scientists utilisent des logiciels open source, le ratio « Software / Brain » tend presque vers 0.

Ratio Software/Brain(Aventurier) => 0

Le type G : les Glamours (Signe Cortana, Ascendant Cloud)

Le Data scientist Glamour est moins geek, plus attaché à des outils graphiques ; il aimera enrober ses travaux avec des outils de visualisation, plus sympathiques pour faciliter la compréhension. Son parcours sera « antérieur » à la génération des aventuriers, et il aura pratiqué des outils de modélisation de type data mining.

Quand l’Aventurier s’illumine pour la découverte du polynôme ou du « blending » de modèles, le Glamour sera plus respectueux des variables initiales, car il devra convaincre.

Cela ne le délivre pas de savoir bien maîtriser les impacts des méta-paramètres pour suivre les courbes de progression… mais il va moins vite et moins haut que le type A. Il sera parfois meilleur que l’Aventurier dans les techniques non supervisées et pour sa capacité à raconter une histoire… un conteur en quelque sorte.

Il utilisera des plateformes comme Cortana Analytics, ou Knime qui proposent des modèles plus « visuels », packagés avec une interface plus user friendly que R, qui permettent de mettre en concurrence des modèles et de faciliter le passage en production avec des API ou du code.

Dans ces solutions, les méta-paramètres (gestion de la régularisation, des gradients, des taux d’apprentissage, etc.) sont présentés comme des choix avec des possibilités de conserver un paramétrage par défaut.

On s’éloigne de la rudesse de « base <- data.frame() », mais une culture statistique poussée, voire mathématique, est nécessaire.  

Pour continuer dans la catégorie de jeu de rôle, on dira que le Glamour a le sentiment d’être un Kandisky cherchant à faire partager sa vision du monde à la cour de Louis XVI.

Ils sont plus nombreux -mais rares malgré tout- mais s’adaptent davantage aux structures plus formelles.

Les outils qu’ils utilisent, même s’ils sont ouverts aux langages open source, ne sont pas totalement gratuits et proposent différents modes de facturation. On peut dire que le ratio « Software/Brain » se rapproche d’une situation d’équilibre.

On transfère dans le coût du software une partie de la rémunération du Docteur en Mathématiques.

Ratio Software/Brain(Glamour) => 1

Le type T : le Théologien (Signe Data Robot, Ascendant Tableau)

Le Théologien est plus un « Data Analyste » qui aime les données mais qui a plus la capacité à comprendre les problématiques « métiers » avec la définition de la « Cible » (le problème posé) et les données pertinentes à collecter. Il a de la bouteille et de la connaissance métier (marketing, risque, commerce, internet, etc.) et connait la valeur des chiffres.

Le Théologien connait effectivement la théorie et les principes des différentes techniques (il les connait sans vraiment les maîtriser), et ne rentrera pas dans les méta-paramétrages (enfin, pas tout de suite).

Pour éviter d’être dépendant, il a le courage de « chercher » et de dépasser son environnement présent. Il a trouvé l’outil qui lui apporte des éléments de choix (du modèle, de la performance, etc.) et qui lui permet de restituer et convaincre son client de l’efficacité du modèle.

Il cherche une solution qui lui proposera « le meilleur » selon un ensemble restreint d’options. Il utilisera des solutions qui ont mis du Machine Learning dans le Machine Learning comme Data Robot ou Dataiku. Les méta-paramètres sont présents, mais pas faits à la base pour être modifiés.

Ces outils accompagnent la montée en compétence de Data Analystes qui ne souhaitent pas dépendre et attendre pour aller vers le prédictif. Ils laisseront un degré de liberté plus grand aux algorithmes.

Ces Théologiens sont amenés à utiliser plusieurs outils dans le domaine de la Business Intelligence avec des outils comme Tableau ou Qlik et ils combineront les résultats prédictifs avec les données de pilotage pour intégrer les modèles dans les outils décisionnels.

Le Théologien s’attachera plus à mesurer et post-benchmarker la performance opérationnelle des modèles. Contrairement à l’Aventurier qui gravit le K2, le Théologien s’intéresse plus à la diffusion de la « bonne parole ».

C’est un prêcheur.

Un modèle n’est pas « bon » parce qu’il a un bon R2, ou minimise le RSME. Il est bon parce qu’il est utilisé et qu’il rapporte ou qu’il se révèle capable de faire converger prévision et réalité… au jour le jour.

Le Théologien sera plus synthétique, la compréhension étant un élément important d’acceptation. Si les codes de sa construction sont moins complexes, ils peuvent s’avérer plus robustes.

Pour vous aider à le catégoriser dans mon jeu de rôle, il est le Jean-Michel Jarre de la data science, capable par une maîtrise des claviers de produire une musique originale et plaisante, capable de rompre avec la tradition, mais apportant du sang neuf.

Évidemment, ces profils sont moins rares, plus disponibles, et l’analyse des éditeurs présents sur ce marché est plus que pertinente, car elle vise à transformer un potentiel existant plutôt que de croire à une arrivée massive de génies surdoués.

Dans ce contexte, le prix du logiciel augmente et le salaire du Data Scientist baisse. Notre ratio « Software/Brain » commence à augmenter.

Ratio Software/Brain(Théologien) = 3

… et maintenant le dernier type …

Le type C : Le Contraint (Signe : aucun, Ascendant : Descendant)

Il représente celui qui n’a pas pris une des 3 options précédentes et qui est resté sur ses « bases » et ses références.

Il est parfois contraint par son existant, les choix de son entreprise ou des contraintes juridiques (par exemple dans les contraintes réglementaires baloises). Il aimerait changer mais son métier ou son organisation ne lui permette pas.

Il est aussi parfois auto-contraint, pris dans ses habitudes et ses pratiques. Ça « fonctionne » depuis plus de 10 ans, alors pourquoi changer ?  Il dénoncera les « effets de mode » du Machine Learning, du Big Data (all is bullshit !). Il restera aveugle devant les enjeux des objets connectés, du changement de paradigme du prédictif vers le préventif… et découvrira un jour dans la douleur qu’un UBER-like a pris son métier !

Un jour prochain, Watson (le produit d’IBM) s’installera sur les postes de ces interlocuteurs traditionnels. Watson « apprendra » les interrogations de son utilisateur et lui proposera les réponses et les graphiques les plus adaptés, et Watson l’avertira d’alertes potentielles.

Il pense que Watson ne se comportera pas comme le HAL de l’Odyssée de Kubrick et ne mettra pas tout l’équipage dehors. 

Pour le jeu de rôle, il commence à se sentir un peu dépassé, et il occupe de moins en moins l’avant-scène. On lui demande systématiquement d’aller plus vite à l’essentiel, ses histoires n’intéressent plus.

Enfin, s’il y a quelqu’un qui commence à constater que le ratio « Software/Brain » est peut-être en train de s’éloigner de la normale…  avec un écart type supérieur à 3 ou 4, c’est le directeur financier.

Ratio Software/Brain(Contraints) = 10

Si tout le monde ne peut pas être un Aventurier, il est temps pour lui de rêver à devenir un Théologien ou un Glamour… bref de réapprendre à conter des « belles histoires », car les outils de type Watson seront les outils de « traitement de texte » des cadres demain (comme Word a fait disparaître une partie importante des emplois de secrétariat).

Autour du même sujet