Discrepancia en reportes de Google Analytics 4: ¿Por qué los mismos datos no coinciden?

¿Por qué los mismos datos no coinciden en GA4?

Como hemos mencionado anteriormente en el post «¿Por qué no puedo ver más de 2 meses en GA4?«, y considerando que varios colegas y clientes nos han hecho esta pregunta, queremos aclarar que no es un bug, se trata más bien de comprender que los reportes de Google Analytics 4 tienen distintas formas de trabajar

Para poder facilitarte este entendimiento, leeremos 3 fuentes:

1. Informes: Los datos y gráficos que vienen por defecto en GA4 y que son el “home” de la herramienta:

Datos y gráficos que vienen por defecto en GA4

 

2. Exploraciones: Reportes de Google Analytics que son más flexibles y que permiten, como bien dice su nombre, explorar los datos de forma similar a una tabla pivote:

Reporte para explorar los datos como una tabla pivote

 

3. Google BigQuery: Los datos extraídos de la misma cuenta, pero son los “datos crudos” sin procesar de GA4 exportados a Google Cloud:

Datos sin procesar de GA4 exportados a Google Cloud

 

¿Por qué los reportes de Google Analytics 4 no coinciden?

Todos los datos están normalizados a 100 (siendo 100, la suma de todos los elementos) para poder garantizar el anonimato de la información. 

Informes

Los resultados:

Tipo Reporte Items viewed Items added to cart Items purchased Item revenue
EXPLORADOR 33.313 34.132 34.279 33.325
INFORMES 33.343 34.169 34.299 33.338
GBQ 33.343 31.699 31.422 33.338

Lo primero que revisaremos será la información de un sitio ecommerce, podemos observar que, aunque los números no sean iguales, la discrepancia entre ellos es baja. Al no ser exactamente iguales a nivel agregado no causa inconvenientes, más bien, es un problema visual al ver una discrepancia de cientos o miles en algunos reportes, aunque estos cientos sean un porcentaje muy bajo.

Mirando un poco más profundo

Esto comienza a hacer ruido cuando comenzamos a buscar detalles como en este ejemplo, que es un extracto de las visitas por navegador. Aquí podemos ver que la discrepancia comienza a aumentar:

Browser Sesiones GA4 Sesiones GBQ
Chrome 46.003 53.997
Android Webview 47.084 52.916
Safari 47.165 52.835
Safari (in-app) 46.992 53.008
Samsung Internet 45.978 54.022
Opera 45.934 54.066
Edge 46.277 53.723
Mozilla Compatible Agent 0.000 100.000
Internet Explorer 0.000 100.000
Mozilla 50.000 50.000
¿Dónde se nota más?

Cuando comenzamos a revisar datos con alta cardinalidad (muchos valores únicos), por ejemplo, al revisar y extraer ID por ID es cuando más ruido hace; en los reportes de informes no es posible obtener esta información, y la diferencia que existe entre el explorador y Google BigQuery puede hacer que exista desconfianza, ya que en este último suele haber más ID únicos, mostrando “ID” que por algún motivo no definido no se muestran en el explorador.

Tipos de reportes en GA4

Lo primero que necesitamos entender de los 3 reportes es que tienen características, potenciales y ventajas diferentes:

Los informes son reportes de índole estadística, presentan datos pre-procesados siendo agrupados, y cumplen con los requerimientos de privacidad. Estos tipos de reportes no tienen caducidad, permitiendo almacenar información por más de 14 meses (máximo para cuentas Free).

El explorador, en cambio, trabaja contando datos desde los eventos que son mucho más cercanos a los datos originales, pero pecan de imposibilitar identificar al usuario aplicando umbrales, y se ven restringidos por la caducidad de 14 meses de los datos.

Google BigQuery es la forma cruda de los datos, tiene un potencial gigante pero requiere de conocimientos básicos de BBDD y SQL para consultar los datos; permite identificar usuario por usuario, evento por evento, pero se paga por el servicio.

Looker y la API: ¿Cómo se relacionan con los reportes de Google Analytics 4 ?

Para no marearnos con más números y fuentes de datos, durante las pruebas tanto de la API como Looker no se vieron afectados por el Data Retention, es decir, que puedo consultar datos expirados por lo que podemos intuir de su naturaleza más estadística, pero parece funcionar en un estado intermedio entre informes y explorador ya que podemos traer IDS, pero no hemos encontrado mucha información de este punto en especial.

Take Away

En resumen, las 3 herramientas tienen un uso específico, sus limitaciones, y es importante definirse como organización cuál de ellas será la fuente de información. En nuestro caso, estamos usando GBQ para reportes más robustos y la API* (Datastudio o Looker). De momento, usamos la interfaz sólo para dudas muy puntuales.   

Si tienes consultas, puedes revisar la información en el canal oficial de Google o comunicarte con uno de nuestros expertos.

Si te encantó nuestro artículo, seguramente te interesarán estos:

Menú