A/B testing : votre trafic est-il suffisant ?

La mauvaise compréhension des indicateurs de significativité statistique des tests A/B est un des grands fléaux de la pratique. Elle est source de décisions erronées qui amènent des utilisateurs à prendre des décisions contraires à leurs intérêts.

Cette chronique est la troisième d’une série qui a pour ambition d’aider les utilisateurs d’A/B testing à mieux comprendre les indicateurs de significativité statistique. Elle aborde tout particulièrement le niveau de trafic requis pour obtenir des résultats fiables. 

Pour déterminer le seuil de trafic requis pour un test donné, quatre paramètres sont à considérer:

1/ le taux de conversion de votre référence (P1) : c’est la valeur actuelle de conversion pour l’objectif principal de votre test (exemple : 3% de taux de clic sur un bouton sur lequel vous réalisez votre test).
2/ l'effet minimum espéré sur le taux de conversion par la variante (P2) (que ce soit en amélioration ou en détérioration). Par exemple, si vous choisissez 10%, vous cherchez à détecter un gain (ou une baisse) de conversion de plus de 10%. Plus vous cherchez à détecter une différence faible, plus grand devra être le nombre de visites. A l’inverse, plus vous cherchez à détecter une différence forte, plus rapide sera votre test et moins le nombre de visites nécessaire sera important pour obtenir un résultat fiable. Cet axiome peut apparaitre contre-intuitif à première lecture mais il est simple à comprendre : si vous visez un gain élevé, disons au-delà de 20%, le moteur statistique n’a pas besoin de beaucoup de visites et de temps pour savoir si, oui ou non, votre variante est telle qu’elle surperforme grandement votre page de référence. Vous aurez l’assurance très rapidement qu’elle bat à plus de 20% (ou ne bat pas à plus de 20%) votre page de référence. Ce type de gain peut être typiquement obtenu sur des boutons d’actions (« Call-To-Action») n'impliquant pas d'achat, comme l'inscription à une newsletter, ou sur des landing pages. A l’inverse, si le gain espéré est susceptible d’être beaucoup plus limité (typiquement à la fin du tunnel de conversion pour le nombre d’achats), le nombre de visites nécessaire pour garantir un résultat fiable sera potentiellement très élevé. 
3/ le seuil de confiance pour lequel un effet est détecté (P3) (aussi appelé puissance statistique) : cette donnée représente le pourcentage de chances que le changement que vous espérez soit bien détecté. La valeur classique recommandée pour ce paramètre dans la littérature statistique est de 80%, c’est-à-dire qu’il existe une chance sur 5 que cet effet ne soit pas détecté alors qu’il existe bel et bien.
4/ le seuil de confiance pour lequel un effet est détecté alors que celui-ci n'existe pas (P4) : ce paramètre représente le pourcentage de chances qu'un faux positif soit détecté (voir notre précédente tribune « Comprendre les dessous d’un test A/A » ); dit autrement, le pourcentage de chances de détecter un effet qui est en fait absent dans la réalité. La valeur classique recommandée pour ce paramètre est de 5%, c’est-à-dire que l’on se donne une chance sur 20 qu'un effet détecté soit faux. 

L’augmentation de la 3ème valeur et la diminution de la 4ème maximisent la fiabilité du test. A l'inverse, diminuer la 3ème valeur et augmenter la 4ème réduira le nombre de visites requises au détriment de la fiabilité.

Une fois ces quatre paramètres définis, il ne vous reste plus qu’à réaliser le calcul statistique qui vous donnera le nombre moyen de visites requises pour chacune des variantes. Les bonnes plateformes d'A/B testing vous fournissent directement le résultat à travers un outil d'estimation de trafic ou de temps nécessaire qui, dans Kameleoon, est présent dans la fenêtre de lancement de test. N'oubliez pas que, par visites nécessaires, on entend bien évidemment visites réellement soumises au test et non pas l’ensemble des visites sur votre site.

Illustrons maintenant le niveau de trafic nécessaire avec quelques cas courants sur la base de seuils de confiance P3 et P4 fixés de manière standard à 80 et 5% :

1/ pour les tests dont le taux de conversion naturel (P1) est élevé (par exemple 30%, type engagement sur une landing page ou taux de clic d'un bouton d’action...) et dont le gain potentiel attendu (P2) l’est aussi (par exemple + 20%), le seuil minimal de visites nécessaires (par variante) pour avoir un résultat statistiquement significatif est d’à peine 1 000 (929 exactement). Ces tests sont donc accessibles à tous les acteurs ou presque.
2/ pour les tests dont le taux de conversion initial (P1) est plus faible (par exemple 5%, type envoi de formulaire) mais dont le gain potentiel (P2) reste fort (par exemple +20%), le seuil minimal de visites est de l’ordre de 7 500 par variante. Si l’espérance de gain (P2) est plus faible, le trafic requis s’envole: passer de 20 à 10 % d’effet minimum sur le taux de conversion fait monter à plus de 30 000 le nombre de visites nécessaires par variante, soit 4 fois plus.
3/ enfin, pour les tests dont le taux de conversion initial (P1) est encore plus faible (par exemple 2 % à l’instar des fins de tunnel) et dont le gain potentiel attendu (P2) est également faible (par exemple 5%) - soit un objectif final de conversion de 2,10% -, le seuil monte à près de 310 000 visites (par variante) : le nombre de e-commerçants en capacité de mener ce type de test est de fait limité. 

On le voit, le niveau de trafic attendu est, dans l’ensemble, loin d’être négligeable. Ces exemples battent en brèche certains discours volontairement mercantiles voulant faire croire que l’A/B testing apporte un enseignement statistiquement fiable quel que soit le type de test réalisé. Mieux vaut savoir où l’on met les pieds, et avec qui, avant de se lancer et mieux vaut être conscient du type de tests qu’on est en mesure de réaliser.  De manière assez claire, les sites à faible trafic sont tout à fait aptes à l’A/B testing à condition de concentrer leurs tests sur des landing pages ou des modifications pour lesquelles les gains de conversion sont potentiellement substantiels (de type taux de clics sur des bannières, inscription à une newsletter, formulaire à remplir pour les sites B2B à l’audience qualifié). Des tests sur le tunnel de conversion ne sont pas exclus mais à condition que le potentiel d’amélioration soit significatif (ce qui est souvent le cas de sites récemment créés). Pour les tests dont l’obtention de gain (en %) est intuitivement beaucoup plus limité, comme ceux portant sur le tunnel de conversion ou l'ajout au panier (notamment pour les sites matures dont les marges d’optimisation sont plus faibles), le trafic nécessaire pour valider un résultat requiert de fait un nombre de visites très conséquent : autant dire qu’ils sont réservés à des e-commerçants ou des media à fort trafic. 
Enfin pour rappel, un test n’est fiable qu’à son terme, une fois tous les visiteurs testés. Même si la tentation est forte, regarder les résultats avant terme ne donne aucune valeur statistique à votre test même s’il est annoncé à un moment t avec une indice de confiance supérieur à 95% (pour plus d’informations, voir notre précédente tribune « Attention à la vraie valeur statistique de vos tests »)