Captcha : la grande histoire de l'évolution

Notamment conçus pour protéger les sites Web contre le spam, les Captchas peuvent néanmoins être contournés. Leur utilisation se révèle en outre bloquante pour les déficients visuels.

L'actualité remet les Captchas (Pour Completely Automated Public Turing test to Tell Computers and Humans Apart) sur le devant de la scène en annonçant que ceux utilisés par Google venaient d'être cassés. La dernière version de Xrumer met également en avant d'autres innovations dans le domaine, comme la possibilité de discriminer "le chat le plus mignon" (autre type de test utilisé dans les Captchas).

Le Captcha consiste en un test, souvent visuel, censé discerner l'humain de la machine. Dans un souci de faire un peu d'historique, il est à noter que le terme Captcha est une marque déposée par l'université Carnegie Mellon. Il a été inventé en 2000 par Luis von Ahn, Manuel Blum et Nicholas J. Hopper de cette université ainsi que John Langford d'IBM.

Le Captcha est principalement utilisé pour restreindre l'accès à des ressources à des seuls humains. Il permet ainsi de :
- Lutter contre le spam : création de comptes mail gratuits, lors de l'envoi de messages dans des forums de discussion, blogs...
- Protéger l'accès à des ressources documentaires : lutte contre l'extraction massive par des robots...

Les Captcha sont à ce point répandus que l'Homme passe environ 150 000 heures par jour à les "résoudre". Leur adoption vient du fait que les ressources des gros sites étaient facilement détournées afin d'envoyer du spam ou de conduire d'autres activités illégales tout en restant anonyme. De nos jours, les Captcha se sont largement étendus aux petits et sont aussi associés à certaines applications (cf. domaine bancaire).

Attention toutefois, bien que séduisants pour certains, ces "tests" basés sur la perception visuelle, interdisent les personnes déficientes visuelles d'accéder aux ressources protégées. C'est également vrai pour les personnes dyslexiques. Qu'ils soient utilisés lors du processus d'inscription ou à chaque connexion, ils peuvent complètement bloquer l'accès aux personnes ayant certains handicaps. Ainsi dans certaines juridictions, les propriétaires de sites peuvent devenir la cible de litiges.

Loin d'être la technologie la plus éprouvée qui soit il existe de nombreuses techniques permettant de les contourner (bogues de conception mis à part). L'université de Carnegie Mellon avait même mis en place un groupe au sein du projet Captcha, chargé de casser les Captcha nouvellement élaborés. Une des premières attaques documentée a consisté à introduire des Captcha pour restreindre l'accès à un site pornographique. Les visiteurs contribuaient à leur insu au cassage du système d'authentification.

Les cracks basés sur de la reconnaissance de caractères (Optical Character Recognition) n'arrivent pas en tête. Toutefois, certains projets comme Breaking ou AICaptcha ont mis en évidence que de nombreux systèmes peuvent ainsi être mis en défaut avec une précision supérieure à 88% (ce qui est plus que ce que demandent les personnes voulant générer du spam).

Les sites aux ressources attractives comptant des millions d'utilisateurs auront toujours des besoins en termes de contrôle d'accès. A ce niveau, bon nombre d'approches concurrentes peuvent être utilisées parmi lesquelles les Captcha, qu'ils soient auditifs ou visuels. Cependant, il semble nécessaire pour ces sites de se doter de méthodes alternatives afin que l'ensemble de la population humaine puisse accéder aux ressources dans un temps raisonnable.