¿Quieres realizar pruebas A/B simultáneas en tu sitio web?

¡Aquí te lo explicamos!

Imaginemos que estás implementando un programa de A/B Testing en tu sitio y llegas al punto donde tienes la posibilidad de correr más de un experimento a la vez…y con ello, llegan las incógnitas más comunes para los experimentadores seriales:

¿Te preocupa cómo el lanzamiento de una prueba A/B en la página de producto podría afectar a otro experimento en el proceso de checkout?, ¿Cuánta contaminación de datos puedo esperar al ejecutar varias pruebas A/B al mismo tiempo? ¿Qué tan perjudicial puede ser la interferencia entre ellos?

¡Que no cunda el pánico! En esta lectura, te acompañamos con herramientas que despejen esas incertidumbres.

Planificar el tiempo de ejecución de experimentos puede llevarnos a plantearnos estas incertidumbres. Sin embargo, como menciona Lukas Vermeer, Director de experimentación de Vista, ex-Booking.com:

Los experimentos superpuestos son el menor de varios males

¿Por qué?

Bueno, en primer lugar, los efectos de interacción son poco comunes. Incluso si se produce una interacción entre tus pruebas, puede ser detectada si tenemos las herramientas adecuadas de medición.

Además, los efectos de interacción pueden incluso darnos información, ya que añaden nuevos datos a la mesa: los efectos cruzados de múltiples pruebas.

Por otro lado, si NO realizas varios experimentos al mismo tiempo, puedes enfrentarte a muchas “contras”.

¿Qué pierdes si no te testeas en simultáneo?

Dentro de los principales problemas, puedes encontrarte el del aislamiento secuencial. Y esto,¿qué significa?

Al experimentar con menos cambios al mismo tiempo, se reduce drásticamente la velocidad de experimentación, lo cual es crucial para el éxito de tu programa de experimentación.
Mantener un buen ritmo de experimentación, logrará reducir pronto el backlog y llegar más rápido a los resultados que buscas.

Esto es vital porque varios factores determinan el éxito de su programa de experimentación:

La cantidad de pruebas que realiza por año.
El porcentaje (%) de las pruebas de las que aprende (ya sea que ganen o pierdan)
El impacto promedio por experimento exitoso

Un buen programa de experimentación debe ser rico en hipótesis relevadas, que una vez priorizadas, pueden competir entre sí, pero no necesariamente eso es un problema, sino todo lo contrario.

Otro problema frecuente estará relacionado al tráfico o aislamiento paralelo. Esto hace sentido cuando al aislar el tráfico, se reduce drásticamente el poder estadístico, ya que divide el tráfico entre las experiencias que se estén corriendo en simultáneo.

Ahora, para obtener resultados, es necesario realizar pruebas más largas en el tiempo.

También tiene un desafío entre manos: ahora que se exponen dos pruebas aisladas, no puede conocer el efecto de interacción. Si ambas pruebas aisladas ganan, aún tendrás que hacer una tercera prueba que las combine para poder medir el efecto de interacción.

Otro factor que puede hacernos entender mejor este escenario son los cambios en el sitio web o aplicación sin realizar pruebas. Esto puede llevar a quedarse ciego respecto a cómo responden los usuarios a esos cambios. Todo cambio que se pretenda implementar y no haya sido experimentado con usuarios previamente, estará sesgado por quien haya decidido que ese cambio directo, era una mejor experiencia para esos usuarios, y por ende, más rentable para el negocio.

Entonces, ¿se pueden medir los efectos de la interacción entre los test?

Interacción entre test

Georgi Georgiev, propietario de Web Focus y Analytics-toolkit.com, intentó medir el impacto de ejecutar varias pruebas A/B al mismo tiempo.

Lo que descubrió fue que la aleatorización de los visitantes no anula los efectos de la interacción. Creó una simulación simple utilizando únicamente pruebas ganadoras con grandes elevaciones para conocer los posibles efectos de interacción.

Tras ese trabajo, infirió que:

No existe una forma segura de establecer la probabilidad de interferencia perjudicial entre pruebas A/B simultáneas, ni el impacto de tales eventos

Si te preocupan los efectos de la interacción, puedes calcular la probabilidad de posibles interacciones en tus conversiones (o tráfico) utilizando la calculadora XY de Lukas Vermeer.

Esta herramienta está diseñada para ayudar a los profesionales del marketing y de la optimización a comprender mejor los efectos de interacción en pruebas A/B simultáneas.

¿Cómo funciona?

Cuando abres el enlace, verás una interfaz de usuario simple con varias opciones y campos de entrada.

Entrada de Datos: La herramienta requiere que ingreses algunos datos sobre tus experimentos A/B. Esto incluye el tamaño de la muestra, la tasa de conversión de control y la tasa de conversión de la variante para cada prueba.

Calculadora XY de Lukas Vermeer

Probabilidad de interacción: La calculadora XY calculará entonces la probabilidad de que haya una interacción significativa entre las pruebas A/B simultáneas que estás ejecutando.

Resultados: Una vez que ingreses los datos necesarios, la herramienta te proporcionará resultados claros sobre la probabilidad de interacción entre las pruebas. Esto te ayudará a evaluar el riesgo de realizar múltiples pruebas simultáneas y te dará una mejor comprensión de cómo pueden afectarse mutuamente.

Probabilidad de interacción entre test

Comprensión de los resultados: Los resultados te permitirán tomar decisiones informadas sobre cómo planificar y ejecutar tus experimentos A/B para minimizar el riesgo de interacción y maximizar la confiabilidad de tus conclusiones.

Otra opción para aislar esta probabilidad es la segmentación. Puedes segmentar los datos de la misma manera que lo harías con las fuentes de tráfico o las categorías de dispositivos, y verificar los resultados de forma transversal.

¿Sería posible evitar los efectos de la interacción?

Si lo que buscamos es evitar cualquier efecto de interacción entre dos pruebas a ejecutar, podemos contemplar algunas opciones, como:

Aislamiento secuencial: Planificar y ejecutar una prueba tras otra.
Aislamiento de tráfico: Crear grupos mutuamente excluyentes para que un mismo usuario no participe en dos experimentos.
Agregar una variante extra a tu prueba, es decir, si la prueba se ejecuta en las mismas páginas y tienes la misma hipótesis o el mismo objetivo, es posible crear una variante diferente en su prueba. Entonces, en lugar de A y B, tendrás A, B y C, donde C es la Variante B más la prueba adicional que se quiera ejecutar.

¿Y si quisiera sólo limitarlos?

Si lo que prefieres es simplemente limitar las chances de interacción, puedes optar por:

Superposición de tiempo parcial: No ejecutar pruebas con una superposición de tiempo completa, sino parcial o de muy poco tiempo.
Esperar a que terminen todas las pruebas que podrían tener interacción entre sí, en caso de que creas que una es determinante de la otra.
Volver a realizar la prueba: siempre es bueno para verificar falsos positivos, y si la prueba se vio influenciada por otras pruebas que se realizaron al mismo tiempo.

En resumen, ejecutar varias pruebas simultáneamente es el menor de todos los males. Los efectos de interacción son raros y, en caso de ocurrir, aún pueden ser detectados y ofrecer información valiosa.

¿Y tú? ¿Te animas a testear de forma simultánea en tu sitio?

Candelaria Ferreira

Líder de equipos de CRO y Optimización de Conversiones. Me dedico a formar especialistas en experimentación basada en datos, desarrollar equipos y conducirlos en la búsqueda de lograr mejores plataformas digitales, más simples de usar y más rentables para el negocio.