Le point critique des valeurs aberrantes dans le test A/B

Malcolm Gladwell a récemment vulgarisé le terme « outlier » (valeur aberrante) en l'utilisant pour désigner des personnes performantes. Toutefois, dans le contexte des données, les valeurs aberrantes sont des points de données très éloignés d'autres points de données, c'est-à-dire atypiques.

Même si elles ne représentent qu'une petite partie de votre jeu de données, ignorer leur présence peut compromettre la validité de vos conclusions. Que sont exactement les valeurs aberrantes, comment les définir et pourquoi sont-elles importantes ?
L'un des tests A/B que nous aimons effectuer consiste à comparer le site d'un client sans et avec nos recommandations pour déterminer leur valeur. Quelques observations (ou même une seule) dans ce type d'exercice peut fausser les résultats de l'ensemble du test. Par exemple, si le côté avec recommandations d'un test A/B l'emporte toujours de 500 $ par jour en moyenne, une commande supplémentaire de 500 $ du côté sans recommandations annule à elle seule l'effet de levier apparent des recommandations pour ce jour-là.
Cet achat de 500 $ est considéré comme une valeur aberrante. Les valeurs aberrantes sont définies comme des points de données qui s'écartent notablement des autres observations dans un test : le seuil de variation notable est sujet à interprétation, mais il correspond généralement à trois écarts types de la moyenne, soit (pour les données normalement réparties) 0,3 % des observations les plus extrêmes.
Une variation est à prévoir dans toute expérimentation, mais les valeurs aberrantes sont tellement éloignées des attentes et rares qu'elles ne sont pas considérées comme représentatives du comportement de la population. C'est la raison pour laquelle nous avons créé nos rapports A/B/MVT de façon à supprimer automatiquement les valeurs aberrantes avant le calcul des résultats, en appliquant la méthode des trois écarts types de la moyenne.
Ainsi, les résultats des tests ne sont pas faussés par des valeurs aberrantes susceptibles de contrarier ou de paniquer les clients. À première vue, il peut sembler étrange de supprimer de façon proactive 0,3 % des observations les plus extrêmes dans un test. Notre produit est conçu pour augmenter globalement la valeur du panier d'achat autant que possible, notamment avec des ventes additionnelles et croisées. Ainsi, dans un test A/B tel que celui mentionné ci-dessus, si les recommandations font passer une commande de 100 $ à 200 $, c'est une excellente nouvelle pour le côté « avec recommandations » du test.
En revanche, si les recommandations sont tellement efficaces qu'elles font passer une commande de 100 $ à 1000 $, c'est une mauvaise nouvelle parce qu'une commande de 100 $ devient une valeur aberrante rejetée.
Pour qu'un test soit statistiquement valide, toutes les règles du jeu doivent être établies avant le début du test. Sinon, nous risquons d'être emportés dans un tourbillon de subjectivité à mi-parcours du test. Une commande de 500 $ ne doit-elle être prise en compte que si elle découle directement de recommandations ? Est-ce que toutes les commandes supérieures à 500 $ doivent être prises en compte si leur nombre est identique des deux côtés ? Qu'en est-il si un côté est encore perdant après la prise en compte de ses commandes supérieures à 500 $ ? Peuvent-elles alors être prises en compte ?

La définition de seuils de valeur aberrante avant le test (pour les tests de RichRelevance, trois écarts types de la moyenne) et l'application d'une méthodologie qui les supprime réduisent considérablement le bruit aléatoire et la subjectivité de l'interprétation d'un test A/B. C'est essentiel pour réduire les problèmes de gestion des tests A/B.
Bien sûr, la compréhension des valeurs aberrantes est également utile en dehors des tests A/B. S'il faut généralement 45 minutes à un employé pour se rendre sur son lieu de travail, un trajet de 60 minutes (c'est-à-dire un retard de 15 minutes) peut être inscrit comme un écart. Cependant, un trajet de trois heures serait certainement une valeur aberrante.
Cela ne veut pas dire que vous devriez utiliser la méthode du test d'hypothèse pour justifier la sanction des employés en retard, mais en faisant une distinction entre le bruit statistique et le comportement non représentatif de la population, vous comprendrez mieux quand les choses sont normales ou quand les conditions ont changé.