A/B testing : statistiques bayésiennes vs fréquentistes, un mauvais combat

Une drôle de rumeur semble (vouloir) faire du bruit dans le microcosme de l’A/B testing : une nouvelle méthode statistique viendrait révolutionner la pratique et donner des résultats plus probants, plus rapidement et plus simplement.

En résumé, la méthode dite « fréquentiste », utilisée depuis une dizaine d’années par toutes les solutions d’A/B testing ne serait pas la bonne : l’approche dite « bayésienne » (déjà bien connue des statisticiens depuis le… XVIIIème siècle) serait plus adaptée à la pratique. Tout le monde se serait-il donc trompé pendant toutes ces années au point de pousser désormais certains à brûler ce qu’ils ont adoré ?

Statistiques fréquentistes et bayésiennes, un vieux débat
Depuis le siècle des Lumières, deux écoles statistiques s'affrontent : les fréquentistes et les bayésiens. La statistique fréquentiste repose sur la loi des observations - que nous pourrons qualifier d'expérimentale ou d'inductive - alors que la statistique bayésienne - que l'on peut qualifier de théorique ou déductive - permet de combiner l’information apportée par les données avec les connaissances a priori provenant soit d’études antérieures soit d’avis d’experts, dans le but d'obtenir une information a posteriori.

Afin de mieux comprendre la différence entre ces deux approches, prenons un exemple simple : lançons une pièce 10 fois. Si on se base sur une modélisation fréquentiste, alors il existe une « vraie » probabilité d'obtenir pile, qui a comme valeur p. Si par exemple, on obtient 6 fois sur 10 pile, alors la probabilité d'obtenir pile à partir des résultats de cette expérience est égale à 6/10 = 0.6. Selon l'approche bayésienne, on ne s’intéresse pas à cette probabilité mais plutôt à sa loi a priori. En effet, si la pièce est équilibrée alors a priori la probabilité d'obtenir pile est la même que celle d'obtenir face, c'est-à-dire 1/2 = 0.5. Cette probabilité a priori est obtenue à partir des résultats d'autres expériences effectuées par le passé. Il est en effet évident que la probabilité calculée par la méthode fréquentiste convergera vers 0.5 si la pièce est lancée un nombre important de fois.

L’intérêt de l’approche bayésienne…et ses limites
L’intérêt de l’approche bayésienne est donc fort quand on peut tenir compte d’expériences passées parfaitement similaires. Elle est donc utilisée dans plusieurs domaines comme par exemple la détection de spams : la connaissance préalable des spams permet d’associer une probabilité correspondant au nombre de fois où un type de mot apparaît. Cette probabilité, obtenue grâce aux expériences passées, permet de considérer un mot comme étant typique d’un spam. Le principal avantage de la méthode est donc de s'affranchir d’un horizon fixe et d'avoir des résultats le plus rapidement possible. Inutile de fixer au préalable la taille d’un échantillon nécessaire et d’un niveau de trafic pour effectuer un test : les résultats sont consultables tout au long de l'expérience et sont plus rapides à obtenir.

Pourquoi donc le monde de l’A/B testing n’a-t-il pas découvert la martingale plus tôt ? Tout simplement parce que l'approche bayésienne part d'un postulat qui est éminemment objectif quand il s’agit de lancer une pièce mais peut être qualifié d’éminemment subjectif quand il s’agit d’une expérience utilisateur. Prendre en compte des résultats précédents qui se sont produits dans une autre échelle de temps et dans des conditions potentiellement complètement différentes n’est tout simplement pas recommandé, sinon proscrit, dans l’A/B testing : le 1er précepte de la pratique est en effet de comparer deux variantes exactement dans les mêmes conditions de traitement, donc concomitamment et non séquentiellement.

La statistique bayésienne déduit la probabilité d'un événement en tenant compte de celles d'autres événements déjà évalues : dans un contexte de test A/B, la connaissance a priori peut être affectée par un effet de saisonnalité ou simplement de tendance et fausser les résultats. En d'autres termes, le risque de détecter un faux positif devient beaucoup plus élevé. Pas forcément grave dans le cas d’un spam ; beaucoup plus problématique dans le cas d’un test A/B.

La méthode bayésienne a aussi comme inconvénient d'être nettement plus difficile à appréhender : les statistiques bayésiennes cherchent à calculer une distribution de probabilités, qui est un concept plus complexe qu'un simple indicateur de confiance. Dans le cas de l'A/B testing, cette distribution de probabilités se base sur les gains ou pertes de conversion. Simplifier à l'extrême cette distribution pour la ramener à un simple intervalle de type [-0,5 %, +2%] de gains n'apporte pas un éclairage suffisant au marketeur dans la lecture des résultats (est-ce -0,5 % ou plutôt +2% ?). D'autant qu'en réalité, la distribution est évidemment basée sur l'intervalle [-∞, +∞] ; le « cut-off » sur l'intervalle [-0,5 %, +2%] est arbitraire, à partir d'un seuil où l’on juge que les poids statistiques sont négligeables.

Puissance de la méthode fréquentiste
C'est la raison pour laquelle la méthode fréquentiste, universellement employée dans l’économie ou la santé s’est également imposée à l’A/B testing depuis sa création. Cette méthode se base uniquement sur les données du test dans des conditions rigoureusement similaires pour les variantes (d’où sa réputation de méthode « data-driven »). Les inconvénients de l'approche fréquentiste sont bien connus et nous les avons amplement détaillés dans notre série de 3 tribunes dédiées à la significativité statistique :

Notamment, le niveau de trafic requis ne permet pas tout type de test en toute circonstance. De plus, la fiabilité des résultats n’est réelle qu’à l’issue du test : il faut savoir résister à la tentation du « repeated picking » en cours de test car les résultats intermédiaires n’ont tout simplement aucune validité.

Alors faut-il privilégier une approche ou l’autre ?
L’une des analyses les plus rigoureuses confrontant l'approche fréquentiste à l'approche bayésienne a été réalisée par le statisticien Valen Johnson qu’il a résumée dans un article paru dans les actes de l'Académie des sciences américaine en 2013 (1). Son analyse fréquentiste avait comme objectif d'explorer les données collectées pour en faire émerger un effet significatif qui ne peut s'expliquer autrement que par l'hypothèse de l'expérience. Son analyse bayésienne confrontait deux hypothèses et évaluait les chances que l'une soit vraie par rapport à l'autre, en se basant sur les données disponibles à l'instant de l'expérience et des informations connues au préalable sur le sujet. Sa conclusion est que le seuil de significativité statistique, couramment admis de 95%, est insuffisant dans le cas de l’approche bayésienne pour conclure que le test est significatif. Ce faisant, il ne fait que conforter le choix de l’approche fréquentiste par les éditeurs de solutions d’A/B testing.

Faut-il pour autant disqualifier la méthode bayésienne ? Non, car elle possède des atouts très appréciables quand les circonstances le permettent. Il s’avère que le monde de l’A/B testing a logiquement adopté l’approche fréquentiste car la plus forte fiabilité et la moindre complexité de lecture des résultats l’emportent largement sur les inconvénients cités plus haut.

De manière plus générale, l’appréciation du choix de la méthode fréquentiste vs bayésienne tourne très rapidement à un débat d’experts bien éloigné des préoccupations des équipes marketing. Dans l’absolu, il n’y a pas de meilleure méthode qu’une autre, l’important est de bien comprendre les logiques sous-jacentes ou d’être conseillé par quelqu’un qui les maîtrise bien.

(1) Valen E. Johnson, Revised Standards for Statistical Evidence, Proceedings of the National Academy of Sciences, Vol. 110, No. 48, 26 November 2013,