A/B testing : déjouer les pièges du test MVT

Cette chronique a pour ambition d’aider les utilisateurs d’A/B testing à mieux comprendre les tests multivariés, aussi appelés MVT (pour « Multi Variate Tests ») et à leur permettre de décider s’il est opportun ou non d’y avoir recours pour améliorer la conversion de leurs sites.

Un test A/B permet de comparer une page appelée référence avec une autre page (appelée variante) dans laquelle une modification est réalisée. Dans le cas d’une modification unique, le test A/B répond parfaitement aux attentes des utilisateurs. En revanche, si la variante inclut deux modifications - par exemple la couleur (passer du vert au rouge) et l’accroche d’un bouton d’action (remplacer « acheter » par « commander ») -, et si elle s’avère gagnante, le test A/B ne permet pas d’identifier quelle modification a eu le plus d’influence sur les visiteurs. C’est là où le test MVT a tout son intérêt puisqu’il permet de croiser toutes les options possibles des modifications réalisées sur une page et de déterminer quelle combinaison de ces modifications convertit le plus. Ainsi, dans le même cas cité plus haut, le test MVT va permettre de tester les 4 options possibles du bouton d’action :

la référence : bouton vert avec l’accroche « acheter »
la variante B : bouton rouge / « commander »
la combinaison : bouton rouge / « acheter »
la combinaison : bouton vert / « commander »

On appelle facteur un regroupement de modifications portant sur un aspect bien défini de la page. Par exemple, dans le précédent exemple, il y a deux facteurs, le facteur couleur et le facteur wording, chacun avec deux options possibles.

La réalisation automatique des combinaisons fait gagner un temps précieux. C’est d’autant plus vrai quand le nombre de facteurs différents est plus important : si l’on ajoute une modification de la forme du bouton d’action (carré ou rectangulaire) et trois options différentes du bloc de description de produit, on aura alors 2 x 2 x 2 x 3 = 24 variations différentes à tester pour identifier la variante qui convertit le mieux. L’automatisation de la création des combinaisons devient un must.

Comme pour un test A/B classique, un test MVT peut se dérouler sur tout type de page : produit, homepage, panier, etc. Les variables les plus souvent testées chez nos clients dans le cadre d'un test MVT sont les titres, couleurs et formes des boutons d’action, les images et les accroches de page.

L’avantage des tests MVT est facilement compréhensible d’où leur relative popularité : ils sont plus complets et précis que les tests A/B qui ne permettent de tester que des ensembles d'éléments regroupés au sein d’une unique variante. En permettant de mesurer l'influence de chacun des éléments d'une page testée, le test multivarié permet de comprendre comment les éléments d'une page interagissent entre eux et lesquels sont déterminants dans l’amélioration de la performance. Étant de fervents partisans du web testing pour mieux connaître ses visiteurs, nous sommes de fait les avocats des tests MVT qui sont encore plus instructifs que des tests A/B.

…mais pas pour tout le monde

Les tests multivariés ne sont cependant pas la panacée en toutes circonstances, loin s’en faut.

La 1ère erreur est de vouloir lancer des tests MVT alors que l’on n’en est encore qu’à ses débuts en matière de web testing. Ce travers est beaucoup moins fort aujourd’hui qu’il ne l’était il y a 2 ou 3 ans, mais la tentation demeure. Devant l’attrait de cette pratique, certains sont tentés d’aller vite. C’est en réalité une erreur car, comme pour toute pratique, il faut commencer par maîtriser ses rudiments et faire les choses simples avant de passer à l’étape supérieure, au risque de rapidement se prendre les pieds dans le tapis. A titre d’exemple, l'analyse d'un test MVT est beaucoup plus complexe que celle d'un simple test A/B : mécaniquement, l’analyse croisée des objectifs primaires et secondaires avec celles de multiples variantes nécessite d’être déjà agile dans la lecture de résultats.

Le 2ème défi des tests MVT est beaucoup plus structurel car il concerne le niveau de trafic requis pour atteindre des résultats statistiquement significatifs. Il n’empêche que le seuil minimal de visites nécessaires pour avoir un résultat statistiquement significatif peut être potentiellement très élevé, comme nous le démontrions dans notre dernière chronique publiée en mars (voir « A/B testing : votre trafic est-il suffisant ? »).

Comme pour les tests A/B, les tests MVT sont accessibles à la grande majorité des sites s’ils se concentrent sur des objets dont le taux de « conversion » initial est déjà élevé (de type engagement sur une landing page ou taux de clic d'un bouton d’action) et où le gain potentiel attendu est élevé (par exemple +10 ou 20%). Avec « seulement » 1000 visites nécessaires par variante, le test MVT est une option accessible à beaucoup. Cela devient déjà plus compliqué pour des tests sur des objets dont le taux de conversion initial est déjà moins élevé (type 5%, ce qu’on trouve dans les remplissages de formulaire par exemple) pour lequel nous avions démontré qu’il fallait un minimum de 7500 visites par variante. Alors que dire des tests en fin de tunnel où non seulement le trafic est de fait beaucoup moins élevé mais où, de surcroît, les taux de conversion et d’amélioration potentielle traditionnellement moins élevés exigent un trafic important? Dans l’exemple que nous citions dans notre précédente tribune, le seuil montait à 310.000 visites par variante : dans ces conditions, seule une poignée d’e-commerçants et de médias sont en mesure de mener des tests MVT dans leur tunnel de conversion et encore, en limitant la combinaison d’options.

En résumé, la nature des tests MVT étant combinatoire, il est fortement recommandé de sélectionner un nombre fini et relativement réduit de variables à modifier. Inutile de partir sur de multiples variantes si c’est pour lire des résultats qui ne veulent tout simplement rien dire parce qu’ils n’ont pu être validés par un échantillon suffisamment important de visiteurs.

L’aubaine du « waving »

Le niveau de trafic requis est à l’évidence un vrai handicap des tests multivariés. Le « waving » va éliminer les variantes non performantes au fur et à mesure du test pour ne garder que celles qui ont encore un potentiel d’amélioration. Le principe est relativement simple : si vous avez une combinatoire importante en termes de variantes (par exemple plus de 100 combinaisons générées), au lieu de tester toutes les variantes en même temps au sein d'un même test, le test est subdivisé en plusieurs « sous-tests » de (par exemple) 30 variantes chacun. Ces « sous-tests » sont considérées comme des vagues successives (d'où le terme de waving) au sein de l'expérience globale. Avec par exemple 3 vagues de 30 variantes chacune (il s'agit là des paramètres recommandés), on teste donc au final 90 variantes, là où on pouvait initialement avoir plusieurs centaines de combinaisons.

L'idée sous-jacente est d'utiliser les résultats obtenus par la vague précédente pour choisir les variantes de la vague suivante. Intuitivement, on sélectionne les variantes de la première vague aussi éloignées que possible en termes de facteurs : les variantes vont donc globalement différer sur tous les facteurs, il y aura peu de variantes « proches ». Une fois la première vague analysée, l'algorithme définit automatiquement, sur chaque facteur, l'option qui semble avoir été la plus favorable. Ces options sont globalement gardées sur la seconde vague, tout en introduisant cependant des changements plus restreints. Et ainsi de suite pour chaque nouvelle vague. Par exemple, si la première vague démontre que la couleur verte sur un bouton CTA a un effet désastreux, les variantes suivantes n'auront pas cette couleur, alors que si les résultats sont moins contrastés sur un wording, les variantes de la seconde vague pourraient encore contenir plusieurs options sur ce facteur précis.

Attention, le waving crée un biais car il ne respecte pas totalement la temporalité. Les variantes testées en seconde vague ne sont pas tout à fait dans les mêmes conditions que les premières ; il suffit que votre environnement change significativement (période de soldes, week-end vs jours ouvrés, etc.) pour que les résultats des vagues diffèrent.

Il ne faut donc pas considérer le waving comme une baguette magique qui rendrait tout type de test MVT possible. On peut le voir comme un intermédiaire entre un pur test MVT (avec un nombre de variantes potentiellement prohibitif) et un pur split-test (sans aucune différentiation de facteurs). C'est donc un compromis entre les avantages et les inconvénients de chacun.

Conclusion

En conclusion, la piste des MVT est très intéressante si l’on dispose d’un niveau de trafic suffisant. Même dans ce cas, il faut être conscient que le temps requis reste relativement long pour obtenir des résultats fiables. L’utilisation de tests MVT ne doit donc pas être systématique : dans beaucoup de cas, les tests A/B (ou A/B/C/D…) donneront des résultats significatifs plus rapidement tout en répondant à la plupart des questions que l'on peut se poser. Ils sont ainsi, de fait, beaucoup plus utilisés dans la pratique.

A/B testing : déjouer les pièges du test MVT

Guides

Repères