Comprendre les dessous d'un test A/A

La mauvaise compréhension de la significativité statistique des tests A/B est un fléau de la pratique. Elle est source d’interprétations erronées.

Cette chronique est la deuxième d’une série de trois qui ont pour ambition d’aider les utilisateurs d’A/B testing à appréhender correctement les indicateurs de significativité statistique. Elle traite des tests A/A, c'est-à-dire d'expériences où la variante est en réalité une exacte copie de l'originale.

Pourquoi réaliser un test A/A ?

Il n'y a dans les faits aucune raison rationnelle de lancer des tests A/A, hormis pour vérifier que sa solution d'A/B testing est correctement configurée et se rassurer sur le fait que les données collectées sont cohérentes. Lancer un test A/A n’a en effet d’autre intérêt que de vérifier que les résultats obtenus par les deux variantes, rigoureusement identiques, sont similaires avec un taux de conversion identique.

Pourquoi les résultats ne sont parfois pas ceux attendus

De fait, les résultats sont, dans la grande majorité des cas, très proches. Mais il est tout à fait possible d'obtenir des résultats de conversion relativement divergents avec un indice de confiance à 95 %, ce qui voudrait dire que le test déclare un vainqueur alors que l’on sait qu'il n’en est rien.

Un tel résultat ne signifie pas forcément que votre solution d'A/B testing est mal paramétrée. Il est beaucoup plus probable que vous soyez en face d’un « faux positif », c’est-à-dire qu’un gain de conversion est annoncé alors qu’il n’existe pas. Mais alors quelle est la probabilité d’obtenir des faux positifs ?

Avec un indice de confiance à 95 %, le pourcentage de chances d’avoir un faux positif est mécaniquement de 5 %. Mais ce chiffre peut être faussé si on regarde les résultats avant le terme du test. En effet, le seuil de confiance fixé pour un test vaut pour l’intégralité du test, sur l’ensemble des visiteurs qui vont être testés. Regarder cet indicateur avant le terme du test est une mauvaise pratique, contraire aux règles statistiques.

Illustrons ce propos par un exemple. Considérons une étude statistique entre deux villes, visant à savoir quelle est la ville dont la population est la plus âgée. La méthode statistique consisterait à constituer deux échantillons représentatifs et suffisants (un par ville) puis de comparer leur âge moyen.

Dans le cas d’un test A/A, nous sélectionnons en réalité les deux groupes d’individus dans la même ville. La méthodologie statistique correcte consiste à fixer à l’avance l’indice de confiance que nous souhaitons atteindre (95 %), ce qui nous donne une taille d’échantillon à tester (mettons 10 000 personnes). Si l'on mène l’étude à son terme sur ce nombre suffisant d’habitants, aucune différence ne sera détectée.

En revanche, si l’on observe de manière répétée les résultats avant le terme de l’enquête, la possibilité d’observer un faux positif augmente. Avec 20 personnes dans chaque groupe, il existe une forte probabilité qu’un des deux groupes ait un âge moyen supérieur à l’autre groupe (alors qu’il s’agit de la même ville !), ce qui se traduira par un indice de confiance élevé pour ce test, car les échantillons sont trop petits : en effet, si l’on répète le même test avec de nouveau 20 personnes dans chaque groupe, il est très probable que l’on trouvera encore une différence d’âge. Si ensuite vous multipliez les observations (par exemple à 35, 50, 75 personnes, etc.), vous augmentez de fait la probabilité de tomber à un moment t sur un faux positif.

Cet exemple démontre bien qu’il faut attendre d’avoir un échantillon suffisant avant d’avoir un résultat valable : le regarder trop tôt, c’est s’exposer à lire des résultats qui ne seront pas fidèles au résultat final.

Les tests A/A/B

Un autre type de test semble gagner en popularité : le test A/A/B. L'idée est ici d'effectuer un test A/B classique mais de le coupler avec une seconde variante A pour s’assurer de la validité du résultat communiqué sur la variante B : si la variante A ne produit aucun gain ou perte de conversion, cela confirmerait que les résultats remontés sur la variante B sont bien fiables.

S’il est bien compréhensible de vouloir se rassurer, coupler un test A/B avec un test A/A n’augmente aucunement la validité du test A/B car les deux résultats sont complètement indépendants. Statistiquement, le test A/A peut démontrer un faux positif dans 5% des cas (il indiquera - avec 95% de certitude - que la version A bat la version A, ce qui est évidemment faux). Pour autant, cela ne signifie aucunement que le test A/B présente lui-même un faux positif : si vous obtenez un gain de conversion avec 95 % de certitude, il y a effectivement 95% de chances que ce résultat soit un « vrai positif » même si le test A/A donne un résultat aberrant. Bref, si la pratique du test A/A/B est intellectuellement tentante, elle est malheureusement sans aucun intérêt statistique sur la validité du test A/B.

Conclusion

La méthodologie même de l’A/B testing est statistique. Il ne faut pas oublier qu'elle n'est valable, dans l'absolu, qu'avec un échantillon infini. Si des aberrations statistiques peuvent exister, ceci ne condamne aucunement la pratique du testing ; vous obtiendrez des résultats fiables, pourvu que votre test se déroule sur un trafic suffisant avec une durée suffisante.

La prochaine tribune (1) de cette série sera justement consacrée aux niveaux de trafic requis pour s'assurer de la fiabilité des résultats et nos recommandations en ce domaine.