Recrutement de Data Scientists : pourquoi 500 candidatures n'ont pas suffi à pourvoir 3 postes
Après 500 candidatures pour trois postes en R&D data, seuls deux profils ont été recrutés. Ce constat révèle un manque de rigueur méthodologique aux conséquences stratégiques pour l'entreprise.
Pour renforcer notre équipe R&D en data science, trois postes de Data Scientists ont été ouverts.
Plus de 500 candidatures ont été reçues.
Après sélection et test technique approfondi, seuls deux candidats ont été recrutés. Le troisième poste est resté vacant.
Ce constat ne traduit pas un manque de candidats. Il révèle un décalage entre les compétences affichées et le niveau de rigueur réellement nécessaire dans un environnement R&D.
Et ce décalage a des implications concrètes pour les entreprises.
Une équipe R&D n’attend pas seulement des experts en outils
Dans un contexte R&D, un Data Scientist ne se contente pas d’appliquer des bibliothèques existantes.
Il doit :
- formuler clairement un problème,
- construire un modèle capable de généraliser,
- anticiper les biais,
- expliquer ses hypothèses.
La différence peut sembler subtile. Elle est en réalité stratégique.
Un modèle fragile peut entraîner :
- des décisions erronées,
- des retards dans les projets,
- des itérations coûteuses,
- une perte de confiance interne dans les travaux data.
1. Rigueur méthodologique : un point de fragilité majeur
La première faiblesse observée concerne la validation des modèles.
Beaucoup de candidats se limitaient à séparer les données en deux parties : entraînement et test.
Or, un modèle peut sembler performant sur un test unique et se révéler instable dès que les données évoluent.
Dans un environnement R&D, on attend :
- des méthodes de validation plus robustes,
- une analyse de stabilité,
- une réflexion sur la capacité du modèle à fonctionner hors du contexte initial.
À cela s’ajoute un problème récurrent : la fuite d’information.
Certaines transformations étaient appliquées sur l’ensemble des données avant leur séparation. D’autres ajustements (rééquilibrage des classes, duplication d’exemples rares) étaient réalisés trop tôt dans le processus.
Conséquence : des performances artificiellement élevées.
Le risque ici est concret : investir du temps et des ressources dans un modèle qui semblera performant en test… mais échouera une fois confronté à la réalité.
2. Compréhension des données : au-delà des graphiques
La plupart des candidats ont produit des analyses descriptives correctes.
Mais peu ont exploité ces analyses pour améliorer réellement la qualité du modèle.
Explorer les données ne consiste pas seulement à produire des visualisations. Il s’agit de comprendre :
- quelles variables sont réellement explicatives,
- quelles anomalies peuvent fausser l’analyse,
- si les données utilisées pour tester le modèle sont comparables à celles utilisées pour l’entraîner.
La gestion des cas rares (fraude, défaut, incident) illustre bien ce point.
Certaines approches consistaient à supprimer massivement des données ou à dupliquer artificiellement des exemples, sans analyser les conséquences sur la fiabilité du modèle.
Dans un contexte R&D, une compréhension superficielle des données peut conduire à des solutions techniquement fonctionnelles… mais stratégiquement inexploitables.
3. Analyse et capacité de justification : le véritable facteur différenciant
Face à des performances insuffisantes, la réaction la plus fréquente était de changer d’algorithme.
Tester plusieurs modèles ou méthodes est normal.
Mais ce qui manquait souvent, c’était l’analyse des causes :
- Le problème vient-il des données ?
- Les variables sont-elles pertinentes ?
- Le modèle est-il trop simple ou trop complexe ?
- Les hypothèses de départ sont-elles valides ?
Au-delà de la performance chiffrée, la capacité à expliquer les choix méthodologiques a été déterminante.
Pourquoi ce modèle ? Pourquoi cette métrique ? Qu'est ce que le résultat nous indique ? Quels sont les risques ? Dans quels cas le modèle peut-il échouer ? ...
Dans une équipe R&D, ces questions ne sont pas théoriques. Elles conditionnent la solidité scientifique des travaux et la crédibilité des décisions qui en découlent.
un Data Scientist incapable d’expliciter ses arbitrages aura des difficultés à défendre les projets, à prioriser les investissements, ou à justifier des choix techniques auprès des parties prenantes.
Un enjeu qualitatif plus que quantitatif
Sur 500 candidatures, deux profils ont démontré :
- une rigueur méthodologique solide,
- une compréhension fine des mécanismes de généralisation,
- une capacité d’explication claire et structurée.
Ce retour d’expérience ne met pas en évidence une pénurie absolue de talents.
Il souligne un enjeu qualitatif : la différence entre savoir utiliser des outils et savoir produire des modèles robustes et défendables.
Dans un environnement R&D, cette différence n’est pas marginale.
Elle conditionne la capacité de l’entreprise à transformer des expérimentations en solutions réellement fiables.
La question n’est donc pas seulement de recruter des Data Scientists.
Elle est de recruter des profils capables d’assumer la responsabilité scientifique des modèles qu’ils développent.