Le mythe des A/B tests en growth marketing

Le mythe des A/B tests en growth marketing
Photo by Hal Gatewood / Unsplash

A l'ère du marketing data-driven, la méthode pour décider entre une version A et une version B est toute désignée : il faut réaliser un A/B test. Mais si la plupart des growths sont aujourd'hui familiers avec cette méthode, la démocratisation s'accompagne d'une perte de rigueur scientifique dans l'exécution.
Retour sur ce qu'est un A/B test, et comment le réaliser.

Les bases de l'A/B test

Déjà démontrée mathématiquement depuis les années 1920 grâce au biologiste et statisticien Ronald Fischer, l'A/B testing s'est popularisé dans les années 1990 avec sa forme actuelle avec l'essor d'internet. Aujourd'hui, la culture de l'expérimentation est vue comme un pilier des équipes growth et marketing modernes.

Wireframe de 2 pages de sign-up où on teste la mise en avant des éléments de réassurance

Prenons l'exemple du lancement d'une nouvelle page de destination dans une campagne, avec pour objectif d'augmenter le taux de conversion de la page. Le déroulé typique du projet est souvent :

  1. Design et implémentation de la page à tester en respectant les bonnes pratiques d'expérience utilisateur
  2. Répartition du trafic à 50% vers la nouvelle page et à 50% vers l'ancienne
  3. On attend d'avoir un nombre de conversions qui semble suffisamment grand pour être significatif
  4. Si la nouvelle page est meilleure, on lui redirige 100% du trafic.

Du bon sens n'est-ce pas ?

Et pourtant, cette méthode n'est pas correcte à cause du peeking problem ou erreur de tests de significativité répétés. En jetant un oeil aux résultats d'une expérience avant la fin, on est tenté d'arrêter l'expérience sans avoir vraiment atteint la p-valeur.

La p-valeur, c'est la probabilité d'avoir le même résultat si on réitère l'expérience. Elle dépend de la taille de l'échantillon sur lequel on réalise l'expérience.

Quelques calculs...

Concrètement, supposons un taux de conversion de base à 50%. On souhaite savoir si la nouvelle page a un meilleur taux de conversion, et on veut être "sûr de nous" à 95% (= 1 - p-valeur). On regarde les résultats à chaque nouvelle conversion, et on arrête l'expérience dès que la p-valeur vaut 5%.
Dans le procédé décrit ci-dessus, on a ainsi arrêté l'expérience à l'étape 3. C'est là où on commet une erreur de raisonnement statistique.

Maintenant imaginons que les deux pages étaient en fait identiques. Avec ce procédé, combien de fois allons nous conclure à une différence de performance significative entre les deux pages, alors que ce n'est pas le cas ? 5% du temps ? Un peu plus ? Et non, on va en fait arriver à la mauvaise conclusion 26.1% du temps ! L'expérience n'est donc pas valide selon les critères fixés initialement.

Pour réellement atteindre la p-valeur de 5% (c'est-à-dire être sûr de nous à 95%), il aurait fallu attendre la fin de l'expérience avant de regarder les résultats, et de l'arrêter.

Comment réaliser un A/B test rigoureux ?

Comment éviter de commettre cette erreur ? Corrigeons maintenant le protocole d'expérimentation :

  1. On détermine en amont la taille de l'échantillon pour atteindre la p-valeur souhaitée avec un outil dédié, donc concrètement le nombre de sessions par variante
  2. On attend que l'expérience soit terminée, c'est-à-dire d'avoir testé tout l'échantillon avant de regarder les résultats pour ne pas mal interpréter une significativité statistique.

Vous verrez vite sur ce simulateur que le nombre de sessions à atteindre est assez élevé. Pour la page de sign-up de GitGuardian, si on part d'un taux de conversion à 5% et qu'on souhaite détecter une amélioration d'au moins 0.5%, des valeurs plutôt réalistes pour une page de sign-up, il faudrait pas moins de 30k sessions pour avoir un A/B test valide (toujours avec une p-valeur à 5%).

Si vous travaillez dans des secteurs avec beaucoup de volume, comme le jeu mobile ou l'e-commerce, vous pourrez maintenant réaliser des A/B tests rigoureux.

Dans tous d'autres cas comme pour du B2B grands comptes... Ce sera plus délicat.

Le mythe des A/B test en growth marketing

Nous aurait-on menti ?

Dans "Hacking Growth" de Sean Ellis & Morgan Brown (2017), on prône une haute fréquence d'expérimentation. Bien que cet ouvrage de référence ait consolidé les connaissances en growth pour une génération, il n'est pas exempt d'exagérations à l'américaine. Les auteurs précisent entre autres que faire 100 tests dont 20 succès nous apprendra plus que faire 50 tests dont 10 succès.

Cela semble logique, et pourtant il faut se rendre à l'évidence : pour presque tous les marketers B2B et 90% des marketers B2C, déployer des dizaines d'expériences par mois n'est tout simplement pas réaliste. En particulier si on s'intéresse à la rigueur des tests.

Est-ce que c'est grave ?

Non. Ni pour les entreprises avec de faibles volumes, ni pour les growths. Même en enlevant les AB tests, une roadmap growth & marketing n'est jamais vide. Il suffit souvent de suivre son intuition pour améliorer la performance plutôt que suivre la chimère de l'expérimentation à tout prix.

C'est même une aubaine pour les meilleurs marketers : votre expérience a plus de valeur que de simples expérimentations.

Faites donc des tests et continuer d'innover, même si vos volumes de test sont trop faibles. Par contre, ayez le recul et les connaissances statistiques suffisantes pour savoir que vous êtes entourés d'incertitudes. Il faut prendre le risque de se tromper pour continuer d'avancer.