Les Data Scientists : nouvelles rock stars de l’IT ?

Que recouvre au juste le terme de "Data Scientist" ? Quelles sont ses compétences ? Pourquoi ces profils seront-ils très recherchés ces prochaines années ?

Dans le sillage du Big Data

Emportés par le maelstrom numérique qui déferle sur notre planète, des pans entiers de l’économie traditionnelle disparaissent et avec eux certains métiers. Simultanément d’autres naissent, dont le niveau de qualification excède bien souvent ceux dont ils prennent la place. C’est le cas de la fonction de Data Scientist, l’objet de cette chronique. Si l’on tenait à traduire l’expression en langue de Molière, probablement faudrait-il dire « chargé de modélisation des données ».
L’expression anglaise a été forgée en 2008 dans la Silicon Valley par deux ingénieurs travaillant chez LinkedIn et Facebook. Que ces deux entreprises, grandes consommatrices de données, soient à l’origine de ce vocable n’est pas en rien le fruit du hasard. Confrontées à des problématiques techniques et métiers inédites, c’est tout naturellement qu’elles ont éprouvé le besoin de désigner par un terme propre un regroupement jusque-là inédit de compétences à la confluence de l’IT, du marketing et de la modélisation statistique.
Il y a quelques années encore, les technologies de traitement de données massivement parallèle étaient l’apanage de quelques mastodontes américains du web. Mais depuis peu elles sont disponibles pour toutes les entreprises, que ce soit sous forme de services Cloud (comme Amazon EMR) ou sous forme de plateforme open source (comme Hadoop). Du coup, ce qui manque le moins aujourd’hui dans le secteur du big data, puisqu’il nous faut utiliser le terme consacré, ce sont les technologies. Celles-ci en effet foisonnent, pour la plus grande satisfaction de quelques consultants ravis de pouvoir jouer les sachants et des éditeurs de niche qui profitent de ce nouvel engouement.
Ce qui manque cruellement par contre, ce sont les usages et surtout les compétences qui permettront de valoriser cette manne de données.
Les deux pénuries ont d’ailleurs partie liée puisque l’une des tâches de Data Scientist consiste précisément à débusquer les opportunités de ce nouvel eldorado.
Avant de décrire les compétences que l’on est en droit d’attendre d’un Data Scientist, voici une petite anecdote qui illustre l’essence de son activité. Il y a une dizaine d’années UPS, une entreprise postale américaine, a mené une vaste étude visant à optimiser le trajet de ses véhicules de livraison, un enjeu de taille pour un transporteur qui fait rouler quotidiennement des dizaines de milliers de véhicules. D’innombrables paramètres ont été pris été analysé. Au bout du compte, l’étude a révélé que certains trajets, en tous points comparables à d’autres, s’avéraient systématiquement plus économiques et plus rapides sans que l’on comprenne au juste pourquoi. Le mystère fut éclairci le jour où les analystes se sont rendu compte que les trajets économiques coïncidaient avec ceux qui minimisaient le nombre des virages à gauche !
Chaque virage à gauche face au trafic coûte en effet un temps d’attente non négligeable où le moteur consomme du carburant en tournant au ralenti. Durant la seule année 2011, l’application d’une stratégie de minimisation des virages à gauche a ainsi permis d’économiser $ 30 millions en dépenses de carburant et d’éviter un rejet de CO2 équivalent à 5 300 voitures.
Cette anecdote illustre deux caractéristiques essentielles de l’activité du Data Scientist :

  • Un Data Scientist doit posséder une connaissance approfondie du métier au service duquel il intervient.
  • Son imagination et sa curiosité sont les qualités indispensables qui lui permettront  de poser les bonnes questions.

Des profils encore rares

Enumérer une liste de compétences qu’un Data Scientist devrait posséder revient rapidement à décrire par le menu un mouton à cinq pattes, une démarche finalement assez peu éclairante. En réalité, il n’existe pas de profil de Data Scientist « universel » mais plutôt des profils différents adaptés à chaque entreprise.
Plus utile en revanche sera la comparaison entre un Data Scientist et des profils plus classiques et mieux identifiés comme ceux de statisticien ou d’analyste BI.
Alors qu’un statisticien pose des questions précises et cherche à mettre en évidence des effets déjà identifiés au moyen de plans d’expériences, la tâche d’un Data Scientist sera nettement plus créative. Il lui sera demandé, non pas d’appliquer des méthodes et d’utiliser des modèles existants, mais plutôt d’en imaginer de nouveaux sur la base de sa connaissance du métier.
Là où un statisticien opère avec des échantillons constitués de données structurées et scrupuleusement sélectionnées, un Data Scientist devra travailler avec des quantités massives de données non-structurées et non-nettoyées. Aux méthodes traditionnelles d’analyse statistique, il préfèrera les techniques de data mining, qui permettent de révéler des propriétés inconnues dans un jeu de données, ou celles du « machine learning » qui cherchent à prédire des comportements futurs sur la base de données connues. Des compétences en analyse sémantique et en traitement du langage naturel s’avèreront par ailleurs indispensables pour analyser de vastes corpus de données textuelles ou de sons.

L’activité d’un Data Scientist se démarque également de celle d’un expert en BI

Ce dernier cherche traditionnellement à analyser une fraction des données structurées d’une entreprise en vue d’apporter une aide à la décision alors que le Data Scientist cherchera quant à lui à exploiter des données non-structurées, situées en partie hors de l’entreprise, afin de reconnaître des schémas de comportements récurrents, d’améliorer les services ou d’identifier de nouveaux clients.
Enfin, l’un des aspects les plus significatifs peut-être du profil d’un bon Data Scientist est son état d’esprit qui doit être celui d’un détective voire celui d’un hacker de données.
Bien que la demande pour ces profils soit en forte croissance (à terme, 30 000 postes seront à pourvoir en France dans ce secteur) aucune école en France ne propose à ce jour un cursus dédié pour former des Data Scientists. Les Grandes Ecoles forment avant tout des statisticiens alors qu’aux États-Unis les Data Scientists sont plutôt assimilés à des informaticiens dotés d’un solide bagage en mathématiques appliquées.

En attendant l’avènement des Data Scientist sur étagère

Les individus qui réuniront les trois facettes du Data Scientist idéal, à savoir des compétences en programmation, en modélisation mathématique et en marketing feront assurément figure de perles rares. Toute entreprise qui ne pourra s’offrir une telle Rolls Royce de l’analyse de données (au prix d’une vraie par an…) devra donc se rabattre sur d’autres solutions, plus pragmatiques.
Comme les individus possédant deux des trois facettes sont nettement plus nombreux, on pourra par exemple constituer des équipes pluridisciplinaires au sein desquelles chacun pourra se former à la composante qui lui fait défaut.
On pourra songer aussi à infléchir le mode de recrutement traditionnel des DSI ou des SSII pour l’orienter vers une sélection des candidats par des pairs basée sur des qualités comme la curiosité, la polyvalence et l’autonomie intellectuelle
plutôt que sur l’aptitude à réciter une longue liste d’API tout en demeurant sagement engoncé dans un costume anthracite.
Plutôt que d’attendre la mise en place d’hypothétiques cursus de Data Scientist par nos universités, on misera sur les aptitudes à l’auto-formation de profils techniques ou scientifiques pointus qui désirent s’investir dans un secteur pionnier où l’imagination reste plus importante que l’application d’un catalogue de bonnes pratiques qui, pour le coup, restent à identifier.
Sur ce plan, les universités du pays de l’Oncle Sam montrent, une fois encore, un exemple d’ouverture et de dynamisme lorsqu’il s’agit de propager la connaissance au plus grand nombre. A titre d’exemple, ces cours vidéos de l’université de Washington qui devraient ravir tous les aspirants au statut d’explorateur de données, le métier le plus sexy du 21ème siècle aux dires de certains analystes.