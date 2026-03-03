Chez Anthropic, Claude réussit désormais les tests techniques des candidats. La start-up a dû inventer des évaluations résistantes à ses propres modèles.

Recruter des profils techniques devient un casse-tête à mesure que l’IA progresse. Anthropic, la start-up à l’origine de Claude, en a fait l’expérience : les tests techniques envoyés aux candidats pour mesurer leur niveau sont désormais résolus par ses propres modèles, plus vite et parfois mieux qu’un humain. Dès lors, comment distinguer un excellent ingénieur d’un candidat qui délègue simplement à l’IA ? L’entreprise vient de détailler comment elle a repensé ses évaluations. Récit.

Initialement, un test technique pour refléter le travail réel

Au départ, l’exercice conçu par Anthropic pour recruter ses ingénieurs n’avait rien d’un test technique générique. Tristan Hume, responsable de l’optimisation des performances, voulait quelque chose d’engageant et surtout "aligné avec la réalité du poste". Les candidats devaient partir d’un programme volontairement peu performant et le rendre beaucoup plus rapide. Concrètement, il fallait analyser comment les calculs étaient exécutés sur une machine simulée proche des TPU, identifier les pertes de temps puis réorganiser le code pour exploiter au mieux le matériel. "Le problème devait donner aux candidats un aperçu de ce que le travail implique réellement", détaille Tristan Hume dans sa note de blog.

Le format était calibré pour évaluer la capacité du candidat à comprendre un système existant, repérer les goulots d'étranglement, choisir une stratégie d’optimisation et vérifier que les gains ne cassent pas le résultat. L’exercice prenait alors deux à quatre heures, avec l’IA autorisée, comme dans une situation de travail. Sur plus de 1 000 candidats, Anthropic dit avoir bâti une large part de son équipe grâce à ce dispositif, y compris des profils peu impressionnants sur le papier mais très solides en pratique.

Quand Claude a commencé à battre les candidats

Le test n’aura finalement tenu qu’un an et demi. Dès le printemps 2025, Claude 3.7 Sonnet produisait déjà de meilleurs résultats que plus de la moitié des candidats dans le temps imparti. Puis Anthropic a testé en interne une nouvelle version de Claude, Opus 4, dans les mêmes conditions. Le modèle dépassait la grande majorité des humains dans les quatre heures, atteignant et parfois franchissant le seuil d'admission. Toutefois, les profils d'exception tiraient encore leur épingle du jeu. "Cela nous permettait encore de distinguer les candidats les plus solides", rappelle Tristan Hume.

Une marge de manœuvre qui disparaîtra totalement avec Claude Opus 4.5. En deux heures, le modèle égalait le score des meilleurs candidats humains, y compris ceux qui utilisaient déjà Claude 4. "Nous n'avions plus de moyen de distinguer la production de nos meilleurs candidats de celle de notre modèle le plus capable", résume-t-il. Le test ne mesurait plus la qualité de l'ingénieur. Il mesurait celle du modèle qu'il avait en face de lui.

Anthropic aurait pu simplement interdire l'IA aux candidats. Tristan Hume a écarté cette option d'emblée : "Au-delà des difficultés à faire respecter cette règle, j'avais le sentiment que si les humains jouent encore un rôle central dans notre travail, je devais pouvoir trouver un moyen pour qu'ils se distinguent dans un contexte avec IA, comme ils le feraient sur le poste." La première tentative d'adaptation a été pragmatique : utiliser Claude Opus 4 lui-même pour identifier là où le modèle commençait à peiner, et faire de ce point le nouveau point de départ du test. La version 2 du test voyait le jour avec un code plus propre, de nouvelles contraintes et une durée réduite à deux heures. Le dispositif a tenu quelques mois. Puis Anthropic a testé Opus 4.5 en avant-première, et l'histoire s'est répétée.

Le responsable tente alors une approche différente : concevoir un problème inspiré d'une optimisation réelle réalisée chez Anthropic. Claude a d'abord semblé bloqué. Mais en lui allouant plus de temps de réflexion, le modèle a fini par trouver la solution. En effet, des ingénieurs du monde entier s'y étaient déjà attelés et Claude avait déjà mémorisé leur solution.

Progression du score des différentes version de Claude sur l’exercice. © Capture d’écran Anthropic / JDN

La solution ? Créer un test hors dataset

Tristan Hume a alors opéré un changement radical de philosophie. Puisque Claude excelle sur tout ce qui ressemble à du travail réel, il fallait concevoir quelque chose que le modèle n'avait jamais vu. Il s'est ainsi inspiré des jeux Zachtronics, une série de jeux de programmation casse-tête où les joueurs doivent résoudre des problèmes avec des règles très restrictives et inhabituelles. Le nouveau test reprend ce principe : les candidats doivent optimiser des programmes sur une machine fictive aux contraintes délibérément artificielles. Et pour compliquer les choses, aucun outil n'est fourni. Se fabriquer ses propres instruments de travail fait partie de l'épreuve.

Il ne s'agit plus d'optimiser du code sur un problème connu, mais de raisonner face à quelque chose d'inédit, de décider comment investir son temps et de s'adapter sans repères. Des compétences où le jugement humain conserve encore un avantage sur l'IA. Le responsable admet toutefois que le test est moins représentatif du travail quotidien. "Le test original fonctionnait parce qu'il ressemblait au vrai travail. Le nouveau fonctionne parce qu'il simule un travail inédit", résume-t-il.

Miser sur des exercices longs et fictifs

Ce que l'expérience d'Anthropic dit en creux, c'est qu'évaluer la capacité brute à écrire du code n'a plus grand sens. Ce qui compte désormais, c'est la façon dont un ingénieur ou un développeur raisonne face à l'inconnu, arbitre entre plusieurs approches. Interdire l'IA lors d'un test technique, c'est évaluer des compétences qui ne correspondent plus à la réalité du poste. Si un candidat sait obtenir un meilleur résultat en s'appuyant sur l’IA, c'est précisément ce qu'on lui demandera de faire une fois recruté.

En outre, pour concevoir un test technique qui résiste encore à l'IA, deux règles émergent de l'expérience d'Anthropic. Miser sur des exercices longs, d'abord. Les modèles peinent encore à maintenir une cohérence sur la durée. Et surtout, inventer des problèmes qui n'ont jamais existé nulle part, donc introuvables dans les données d'entraînement. Un problème que l'IA n'a jamais vu est, pour l'instant, un problème qu'elle ne peut pas résoudre par cœur. Pour évaluer un ingénieur, il faut désormais sortir du réel.