Paul le Poulpe ne passe pas notre test

Les Allemands ont parlé de le faire griller, Zapatero de lui envoyer une équipe de protection tandis que tous les grands médias internationaux relayaient l’information. Y avait-il pour autant de quoi s’emballer face au parcours sans faute de Paul le Poulpe ?

Paul le Poulpe : un mythe moderne
D'abord, son parcours n'est pas sans faute dès lors qu'on se penche sur son passé d'oracle. Si l'on prend en compte ses prédictions pour l'Euro 2008, le célèbre invertébré totalise douze prédictions correctes sur quatorze, soit un taux de réussite qui, de 100%, tombe déjà à 85.7%. Le score reste honorable, nous direz-vous, pour un poulpe d'aquarium. Certes, mais si la question est de savoir si l'on pourrait mettre à profit ses dons à l'avenir, il faut trouver un moyen d'évaluer à quel point la remarquable performance est susceptible de se perpétuer. Cela revient à déterminer si le fabuleux destin de Paul ne tient qu'à sa chance ou s'il a réellement quelque chose de plus que ses vulgaires congénères.

La statistique : notre meilleur gardien de but
C'est un problème auquel on est souvent confronté lorsqu'on analyse les résultats de tests, en particulier pour ce qui nous concerne, de tests A/B. Optimiser son activité web en mettant en concurrence plusieurs versions d'une même page et en mesurant grâce à la webanalyse laquelle délivre la meilleure performance est une perspective alléchante - et ce, à juste titre. Seulement voilà, dans webanalyse, il y a « analyse » et il ne s'agit pas uniquement de mesurer puis de comparer pour désigner le vainqueur.

Telle amélioration observée sur une période de temps donnée est-elle réellement durable ou s'explique-t-elle par une variation aléatoire due au hasard ? Pour nos clients comme pour les parieurs suspendus aux prédictions de Paul le Poulpe, l'enjeu financier est considérable. Une analyse statistique et probabiliste rigoureuse s'impose.

Appliquons la méthode fifty-five au cas de Paul le Poulpe. Imaginons Bébert le poulpe ordinaire, parfaitement impartial et ignorant ; il a une chance sur deux de choisir la moule décorée du drapeau du futur vainqueur, et ce, à chaque match, puisque la donne est réinitialisée à chaque fois. On dit que les événements sont indépendants. Son taux de réussite est donc de 50% quel que soit le nombre d'occurrences. Il est mis en concurrence avec Paul le poulpe, qui a obtenu un score de 85.7% sur quatorze occurrences. Sur la base de ces données, peut-on être sûr qu'adopter Paul est un meilleur placement qu'adopter Bébert ?

Paul vs. Bébert : match nul
Comparons cela à une page A qui, sur la base de quatorze visites, a enregistré un taux de conversion de 85.7% (comme Paul), tandis que la page B a enregistré, sur la même base, un taux de 50% (comme Bébert). La norme est de calculer un degré de confiance à partir de la loi binomiale et de considérer qu'au-delà de 95%, la variation est statistiquement significative. Chez fifty-five, on préfère en laisser encore moins au hasard : en plus de relever ce seuil à 98%, on calcule le degré de confiance à partir de la loi du Χ² (chi-deux), plus rigoureuse. Et comme la significativité statistique dépend non seulement de l'amplitude de la variation enregistrée (ici forte : 85.7% - 50% = 35.7 points de variation) mais également du volume d'occurrences testées (ici faible : quatorze occurrences), pour les très petits volumes, nous appliquons la loi du chi-deux corrigée par Yates, encore plus rigoureuse et mieux adaptée.

Impossible alors pour Paul de nous enfumer dans son nuage d'encre : on obtient un degré de confiance de 89.5%, ce qui est largement en-dessous de notre seuil de confiance. N'en déplaise à ses fans, les prédictions de Paul ne méritaient pas de faire couler plus d'encre que celles de Bébert.

Bien sûr, choisir de placer le seuil à 95 %ou à 98% est une décision arbitraire, et on pourrait tout autant décider que 90% est un seuil suffisant. La définition du seuil reste avant tout contextuelle et relève du bon sens. Si l'on vous dit que la traversée d'un ancien champ de mines est sans risque, avec un degré de confiance de 90%, il ne tient qu'à vous de savoir si vous souhaitez vous y engager, c'est-à-dire de définir votre propre seuil de confiance au vu des risques encourus.

Tapas médiatique
Une dernière chose : si les événements sont indépendants, on peut tout de même calculer la probabilité de deviner le bon résultat sept fois de suite, et c'est précisément ce qu'ont fait la plupart des journalistes. On obtient alors 1/128 (un sur deux à la puissance sept), soit moins de 0.8%. C'est effectivement extrêmement bas, mais c'est en fait la probabilité d'obtenir n'importe quelle combinaison ordonnée - aussi bien un sans faute qu'un « tout faux », ou que toute autre combinaison mixte ! Les commentaires exaltés suscités par cette valeur sont donc à prendre avec des pincettes - moins glissantes que les tentacules...

Article rédigé par Alan Boydell, Directeur Data Insigths & Analytics et Lan Anh Vu Hong, Analyste Conversion & Média