Data Science et Big Data : quelles sont les compétences les plus recherchées ?

Data Scientist, Data Analyst, architecte Big Data... Ces métiers centrés sur la gestion des données nécessitent la maîtrise de nouveaux outils et langages. Quels sont-ils ? Étude comparative en se basant sur les contenus des offres d'emploi proposées sur ce terrain.

De nombreuses études existent présentant les (plus ou moins) nouveaux métiers de la Data. En revanche, il y en a peu sur les technologies et langages de programmation qu'il est nécessaire de maîtriser dans le cadre de ces métiers. Certaines technologies innovantes sur le papier ne sont pas encore utilisées en entreprise et inversement, des outils annoncés désuets ne le sont pas encore. Il était temps de mesurer objectivement quelles compétences sont aujourd'hui demandées par les entreprises à la recherche de Data Scientists, en France comme à l'international.  

Nous avons analysé toutes les offres d'emploi [1] de Data Scientist, de Data Analyst et d'Ingénieur Big Data publiées les 14 derniers jours précédant le 9/12/2015. Par souci de brièveté, seuls les résultats concernant les Data Scientists seront présentés dans cet article (l'ensemble des résultats est disponible ici). Les offres d'emploi analysées sont situées à Paris, Londres, New-York et San Francisco, permettant ainsi de comparer la vitesse d'adoption des nouveaux outils et langages entre ces différents marchés.

Les compétences recherchées ont été classées en quatre catégories : Langages de Programmation, Outils d'Analyse, Outils Big Data et Base de Données.

Langages de Programmation

Deux principaux langages de programmation et scripting sont rois en Data Science : R et Python. Beaucoup de Data Scientists en puissance se posent la question de savoir lequel des deux est le plus recherché par les employeurs. En France, il s'agit de R avec 57% des offres le stipulant contre 37% pour Python. À San Francisco en revanche, la situation s'inverse avec plus de 60% des offres nécessitant Python pour un peu moins de 55% pour R. Paris se situe entre les deux. Il est par ailleurs étonnant de remarquer que Java est bien plus recherché que Python en France.

Outils d'Analyse

Logiciel de Statistique par excellence, SAS est toujours l'outil d'analyse le plus recherché pour les rôles de Data Scientist. Nouvel acteur spécialisé dans la data visualisation, Tableau est le second outil d'analyse le plus demandé. Excel possède un pourcentage assez faible car il est évidemment souvent implicite pour ce type de poste ! 

Nous constatons tout de même que les outils d'analyse possèdent des pourcentages assez faibles, ne composant généralement pas le cœur des activités du Data Scientist. Les résultats sont bien sûr tout autres pour les offres d'emploi de Data Analyst, comme nous pouvons le voir ici.

 
Outils Big Data

Hadoop a le vent en poupe en France avec près de 50% des offres d'emploi de Data Scientist mentionnant la plus célèbre des technologies Big Data. Son successeur officieux, Spark, est lui requis dans un peu moins de 25% des offres, toujours en France. 

Il est intéressant de noter que Hive, langage dérivé de Hadoop avec une syntaxe proche du SQL, est présent dans plus de 20% des offres à San Francisco et New-York, mais à peine existant en France.


Base de Données

Concernant les bases de données, SQL reste incontournable, les autres langages étant négligeables. Les autres outils sont néanmoins bien requis pour les postes d'ingénieur Big Data, architecte Big Data et autres développeurs Big Data, comme détaillé dans l'étude complète.


Pour finir, il est intéressant de comparer la répartition des types d'experts de la Donnée entre Londres et Paris. 

À Londres, plus de deux offres d'emploi sur trois concernent un rôle de Data Analyst. Le tiers restant concerne essentiellement les Data Scientists, les rôles dans le Big Data étant marginaux.

À Paris, le marché est tout autre avec plus de la moitié des offres dans la Data composée d'offres de Data Scientists. Les Data Analysts représentent quant à eux 30% des profils recherchés et les experts du Big Data 17%.


En résumé : Il y a bien des différences importantes entre les marchés US, UK et français. Si nous faisons l'hypothèse que les marchés anglo-saxons devancent le marché français dans l'adoption des nouvelles technologies, il semblerait que Python ait un bel avenir en France, et que SAS et Java amorcent un fort déclin dans les prochaines années. L'étude interactive complète montre également que nous avons un retard important dans l'adoption des langages Big Data ; Spark, Hive et Pig étant requis dans deux fois plus d'offres aux Etats-Unis. Nous confirmerons ces tendances dans les prochains mois. 

[1] En analysant toutes les offres de Indeed.com, Indeed.co.uk et Indeed.fr. La méthodologie détaillée est disponible ici.

Etats-Unis / Java