Cosas a considerar en un Test A/B: Parte I

Rómulo Córdova

Seguramente te has topado con el término Test AB o A/B testing, en algún artículo, podcast, o tus colegas lo han mencionado por ser algo bastante útil para poner a prueba experimentos de personalización en tu página web.

Su popularidad no es gratis. Un Test AB podría ofrecerte hallazgos que te permitirían comprobar una hipótesis que tengas en mente que, normalmente, vienen acompañadas de poner a prueba si la propuesta creativa de tu equipo UX/UI resultará exitosa para lo que tienen en mente; normalmente: aumentar conversiones.

Cuando llega el momento de experimentar con nuestra página, podríamos llegar a sentirnos abrumados por factores inherentes a la organización o negocio en los que estamos involucrados que serán afectados por el Test. Y con razón: efectuaremos cambios fuertes dentro de la página solo para probar que nos equivocamos -o no, eso ya lo explicaré- con lo que trajimos a colación en la anterior reunión con el equipo.

Pero debemos considerar que esto es solamente el cerebro haciendo lo que mejor hace siempre: alertarnos sobre lo desconocido y evitar riesgos que podrían costarnos recursos y tiempo.

Vengo a decirte que no temas. La Estadística ya resolvió eso por nosotros, y no solo eso: se encargó de darnos confianza en que podemos equivocarnos, y saber qué necesitamos para que nuestras hipótesis sean aceptadas o rechazadas (que, en el mejor de los escenarios, muy dentro de nosotros, queremos que sean aceptadas). De hecho, esto es otro sesgo cognitivo que tocaremos en otro momento.

¿Qué es una hipótesis?

Bien. Todo Test A/B comienza con una hipótesis que planteamos. El mejor ejemplo de esto, nos los dan Lind, Marchal y Wathen en su -muy recomendado- libro Estadística Aplicada a los Negocios y la Economía (2012).

En casi todos los sistemas legales del mundo rige la presunción de inocencia, esto es, que eres inocente, hasta que se demuestre lo contrario. Es decir: el jurado propone que la/s persona/s a las que se le imputa un crimen es inocente (esta sería su hipótesis); luego, someten esta hipótesis a verificación y, con suficiente evidencia, ésta se rechazaría, por lo que nuestros imputados lamentablemente, serían criminales.

En nuestro mundo de CRO, analítica digital, marketing digital o e-commerce, normalmente -como mencionamos anteriormente- un equipo de UX/UI o CRO nos plantea una hipótesis de, digamos, cambiar el color de un botón (call-to-action) para atraer mayor clicks que su versión “anterior”: el nuevo, sería verde; el anterior, es gris.

Nota: Rigurosamente hablando, el botón verde no atrae mayor conversión sería nuestra “hipótesis nula”, que normalmente buscamos rechazarla. “Es una afirmación que no se rechaza a menos que la información de la muestra ofrezca evidencia convincente de que es falsa.” (Lind, Marchal, Wathen; 2012). En este artículo, nos abocaremos a una terminología menos técnica.

Entonces, queremos rechazar que la (Hipótesis Nula) sea falsa. Queremos rechazar que el Botón Verde sea culpable de cometer el crimen de no atraer mayor conversión. ¿Por qué? Porque ya el Botón Gris nos ha dado evidencia de que funciona (pero queremos probar que uno nuevo funciona mejor).

Tengo la hipótesis, ¿y ahora?

Sencillo. Esperar que tu equipo de desarrolladores o quien haga uso del software de personalización 😉 suba a producción el HTML + CSS de los botones que comenté anteriormente.

¿Cómo se prueba una hipótesis en una página web?

Existen Servicios de Software que son capaces de mantener la “versión anterior” (el Botón Gris en nuestro caso) del site, y su nueva versión al mismo tiempo en producción. Básicamente hablando logran dividir el “bifurcar” el tráfico hacia ambas versiones en función de parámetros que decidamos. En D2B, lo que más usamos es una división de mitades: 50% tráfico para el grupo control, y la otra mitad para la experiencia con variación. Es, pues, por esto que nace el nombre de Test AB.

Lo más sencillo sería utilizar estos servicios porque facilitan la implementación de estos experimentos en producción. Cosa que nos ahorrará tiempo y recursos que técnicamente podrían llegar a ser bastante desafiantes. Sobre todo a la hora de observar la reportería de las experiencias.

Test A/B: Paciencia, muchos datos o mucho tiempo

Como todo experimento que tenga como objetivo llegar a afirmaciones relevantes, es súper importante tener en mente (esto es para ti, CRO Manager, Head of Conversion o Analytics Consultant) considerar la muestra del experimento. Esto es, en nuestro caso, el flujo de tráfico -en sesiones o usuarios- que se registren durante el tiempo que lleve tu test.

Para no hacer demasiado largo este artículo introductorio a la temática central de éste, te quiero mencionar que, existen recursos online gratuitos para saber el tiempo o cantidad de tráfico que necesitas para obtener el valor p de tu test A/B.

La más intuitiva para mi, es la de la gente de CXL: AB+ Test Calculator: “Una calculadora de pruebas -de hipótesis- que responde todas tus preguntas previas y posteriores a tu análisis”

Aquí entra en escena lo que yo llamo “Las 3 Palancas De Los Test A/B”:

Paciencia
Abundancia de datos
Tiempo a favor

Paciencia

Si tu tráfico es “poco”, y tu tiempo “corto”, no vas a tener suficiente evidencia para decir que el Botón Verde es el culpable. Esto, inevitablemente, te llevará a tener paciencia para tener una muestra más sólida (que solo se logra con mayor cantidad de sesiones o una duración más prolongada) o tomar decisiones basadas en datos que aunque parezcan llamativos, no son más que números que le hablan a tu intuición. Sin ánimos de despreciar la intuición.

Esto es importante que los involucrados en el test lo tengan en mente.

Abundancia de datos

A mayor tráfico, y si la aleatorización está bien hecha, tu experimento te ofrecerá evidencias más rápido. Imagina que quieres saber qué tal quedó la sopa que hiciste este fin de semana. ¿Tomarías la sopa completa para saborearla, o solo una cucharada es suficiente? Exacto. La cucharada es suficiente como para tener una idea del sabor de la sopa; es una evidencia que nos confirma o nos rechaza si nuestros comensales van a volver a probarla, o si el Botón Verde es culpable de que no suba su cantidad de clicks 🍜.

Tiempo a favor

En D2B hemos tenido instancias en las que las pruebas A/B han estado en landings con muy “poco” tráfico; hemos tenido que alargar el tiempo del experimento para poder llegar a conclusiones significativas que nos permitan tomar decisiones que, de ser tomadas a la ligera, habrían significado una pérdida de recursos y quizá tener hasta consecuencias negativas sobre el desempeño esperado a futuro.

Quizá en algún momento te toque planificar con antelación este tipo de escenarios y toma en cuenta el recurso de esta palanca.

Conclusión Parte I

Entendemos que un test A/B no es simplemente partir un tráfico en mitades, aplicar el experimento y tomar decisiones on-the-go.

Esta pequeña introducción busca adentrarte en esta área de la Optimización de Tasas de Conversión (o CRO, en inglés) + UX/UI + Análisis de Datos y Diseño de Experimentos. Es solo la punta del iceberg de todo un campo de metodologías, herramientas, teorías estadísticas que buscan: – Ofrecerte la capacidad de tomar decisiones/juicios con evidencia – Difuminar -en la mayoría de los casos, depende- tus sesgos cognitivos – Evitar pérdida de tiempo y recursos – Mejorar el desempeño de tus canales de conversión – Rechazar ideas que pudieron haber sonado buenas al principio (esto se relaciona a los sesgos)

Rómulo Córdova

Politólogo y Consultor de Analytics. Un ser humano que busca entender[se] en un mundo cargado de datos, y poca información. Normalmente le busca las 5 patas al gato, y aunque no siempre es lo mejor, le ha sido útil para comprender mejor las complejidades que lo rodean.