Les Data Scientists : nouvelles rock stars de l’IT ?
Que recouvre au juste le terme de "Data Scientist" ? Quelles sont ses compétences ? Pourquoi ces profils seront-ils très recherchés ces prochaines années ?
Dans le sillage du Big Data
Emportés par le maelstrom numérique qui déferle sur notre
planète, des pans entiers de l’économie traditionnelle disparaissent et avec
eux certains métiers. Simultanément d’autres naissent, dont le niveau de
qualification excède bien souvent ceux dont ils prennent la place. C’est le cas
de la fonction de Data Scientist, l’objet
de cette chronique. Si l’on tenait à traduire l’expression en langue de Molière,
probablement faudrait-il dire « chargé de modélisation des données ».
L’expression anglaise a été forgée en 2008 dans la Silicon Valley par deux
ingénieurs travaillant chez LinkedIn et Facebook. Que ces deux entreprises,
grandes consommatrices de données, soient à l’origine de ce vocable n’est pas en
rien le fruit du hasard. Confrontées à des problématiques techniques et métiers
inédites, c’est tout naturellement qu’elles ont éprouvé le besoin de désigner par
un terme propre un regroupement jusque-là inédit de compétences à la confluence
de l’IT, du marketing et de la modélisation statistique.
Il y a quelques années encore, les technologies de
traitement de données massivement parallèle étaient l’apanage de quelques
mastodontes américains du web. Mais depuis peu elles sont disponibles pour
toutes les entreprises, que ce soit sous forme de services Cloud (comme Amazon EMR) ou sous forme
de plateforme open source (comme Hadoop).
Du coup, ce qui manque le moins aujourd’hui dans le secteur du big data,
puisqu’il nous faut utiliser le terme consacré, ce sont les technologies.
Celles-ci en effet foisonnent, pour la plus grande satisfaction de quelques consultants
ravis de pouvoir jouer les sachants et des éditeurs de niche qui profitent de
ce nouvel engouement.
Ce qui manque cruellement par contre, ce sont les usages
et surtout les compétences qui permettront de valoriser cette manne de données.
Les deux pénuries ont d’ailleurs partie liée puisque l’une des tâches de Data Scientist consiste précisément à débusquer les
opportunités de ce nouvel eldorado.
Avant de décrire les compétences que l’on est en droit d’attendre
d’un Data Scientist, voici une petite anecdote qui illustre l’essence de son activité.
Il y a une dizaine d’années UPS, une entreprise postale américaine, a mené une
vaste étude
visant à optimiser le trajet de ses véhicules de livraison, un enjeu de taille
pour un transporteur qui fait rouler quotidiennement des dizaines de milliers
de véhicules. D’innombrables paramètres ont été pris été analysé. Au bout du
compte, l’étude a révélé que certains trajets, en tous points comparables à
d’autres, s’avéraient systématiquement plus économiques et plus rapides sans
que l’on comprenne au juste pourquoi. Le mystère fut éclairci le jour où les
analystes se sont rendu compte que les trajets économiques coïncidaient avec ceux
qui minimisaient le nombre des virages à gauche !
Chaque virage à gauche
face au trafic coûte en effet un temps d’attente non négligeable où le moteur consomme
du carburant en tournant au ralenti. Durant la seule année 2011, l’application
d’une stratégie de minimisation des virages à gauche a ainsi permis
d’économiser $ 30
millions en dépenses de carburant et d’éviter un rejet de CO2 équivalent à 5 300 voitures.
Cette
anecdote illustre deux caractéristiques essentielles de l’activité du Data
Scientist :
- Un Data Scientist doit posséder une connaissance approfondie du métier au service duquel il intervient.
- Son imagination et sa
curiosité sont les qualités indispensables qui lui permettront de poser les bonnes questions.
Des profils encore rares
Enumérer une liste de compétences qu’un Data Scientist
devrait posséder revient rapidement à décrire par le menu un mouton à cinq
pattes, une démarche finalement assez peu éclairante. En réalité, il n’existe
pas de profil de Data Scientist « universel » mais plutôt des profils
différents adaptés à chaque entreprise.
Plus utile en revanche sera la
comparaison entre un Data Scientist et des profils plus classiques et mieux
identifiés comme ceux de statisticien ou d’analyste BI.
Alors qu’un statisticien pose des questions précises et
cherche à mettre en évidence des effets déjà identifiés au moyen de plans d’expériences,
la tâche d’un Data Scientist sera nettement plus créative. Il lui sera demandé,
non pas d’appliquer des méthodes et d’utiliser des modèles existants, mais plutôt
d’en imaginer de nouveaux sur la base de sa connaissance du métier.
Là où un
statisticien opère avec des échantillons constitués de données structurées et scrupuleusement
sélectionnées, un Data Scientist devra travailler avec des quantités massives
de données non-structurées et non-nettoyées. Aux méthodes traditionnelles
d’analyse statistique, il préfèrera les techniques de data mining, qui
permettent de révéler des propriétés inconnues dans un jeu de données, ou
celles du « machine
learning » qui cherchent à prédire des comportements futurs sur la
base de données connues. Des compétences en analyse sémantique et en traitement
du langage naturel s’avèreront par ailleurs indispensables pour analyser de vastes
corpus de données textuelles ou de sons.
L’activité d’un Data Scientist se démarque également de celle d’un expert en BI
Ce dernier cherche traditionnellement à analyser une
fraction des données structurées d’une entreprise en vue d’apporter une aide à
la décision alors que le Data Scientist cherchera quant à lui à exploiter des
données non-structurées, situées en partie hors de l’entreprise, afin de
reconnaître des schémas de comportements récurrents, d’améliorer les services
ou d’identifier de nouveaux clients.
Enfin, l’un des aspects les plus significatifs peut-être du
profil d’un bon Data Scientist est son état d’esprit qui doit être celui d’un
détective voire celui d’un hacker de données.
Bien que la demande pour ces profils soit en forte croissance
(à terme, 30 000
postes seront à pourvoir en France dans ce secteur) aucune école en France ne
propose à ce jour un cursus dédié pour former des Data Scientists. Les Grandes
Ecoles forment avant tout des statisticiens alors qu’aux États-Unis les Data
Scientists sont plutôt assimilés à des informaticiens dotés d’un solide bagage
en mathématiques appliquées.
En attendant l’avènement des Data Scientist sur étagère
Les individus qui réuniront les trois facettes du Data
Scientist idéal, à savoir des compétences en programmation, en modélisation
mathématique et en marketing feront assurément figure de perles rares. Toute
entreprise qui ne pourra s’offrir une telle Rolls Royce de l’analyse de données
(au prix d’une vraie par an…) devra donc se rabattre sur d’autres solutions,
plus pragmatiques.
Comme les individus possédant deux des trois facettes sont
nettement plus nombreux, on pourra par exemple constituer des équipes
pluridisciplinaires au sein desquelles chacun pourra se former à la composante
qui lui fait défaut.
On pourra songer aussi à infléchir le mode de recrutement traditionnel
des DSI ou des SSII pour l’orienter vers une sélection des candidats par des
pairs basée sur des qualités comme la curiosité, la polyvalence et l’autonomie intellectuelle
plutôt que sur l’aptitude à réciter une longue liste d’API tout en demeurant
sagement engoncé dans un costume anthracite.
Plutôt que d’attendre la mise en
place d’hypothétiques cursus de Data Scientist par nos universités, on misera
sur les aptitudes à l’auto-formation de profils techniques ou scientifiques pointus
qui désirent s’investir dans un secteur pionnier où l’imagination reste plus
importante que l’application d’un catalogue de bonnes pratiques qui, pour le
coup, restent à identifier.
Sur ce plan, les universités du pays de l’Oncle Sam
montrent, une fois encore, un exemple d’ouverture et de dynamisme lorsqu’il
s’agit de propager la connaissance au plus grand nombre. A titre d’exemple, ces
cours vidéos
de l’université de Washington qui devraient ravir tous les aspirants au
statut d’explorateur de données, le métier
le plus sexy du 21ème siècle aux dires de certains analystes.