Discrepancia en reportes de Google Analytics 4: ¿Por qué los mismos datos no coinciden?
Paulo Kemen
Como hemos mencionado anteriormente en el post “¿Por qué no puedo ver más de 2 meses en GA4?“, y considerando que varios colegas y clientes nos han hecho esta pregunta, queremos aclarar que no es un bug, se trata más bien de comprender que los reportes de Google Analytics 4 tienen distintas formas de trabajar.
Para poder facilitarte este entendimiento, leeremos 3 fuentes:
1. Informes: Los datos y gráficos que vienen por defecto en GA4 y que son el “home” de la herramienta:
2. Exploraciones: Reportes de Google Analytics que son más flexibles y que permiten, como bien dice su nombre, explorar los datos de forma similar a una tabla pivote:
3. Google BigQuery: Los datos extraídos de la misma cuenta, pero son los “datos crudos” sin procesar de GA4 exportados a Google Cloud:
¿Por qué los reportes de Google Analytics 4 no coinciden?
Todos los datos están normalizados a 100 (siendo 100, la suma de todos los elementos) para poder garantizar el anonimato de la información.
Informes
Los resultados:
Tipo Reporte | Items viewed | Items added to cart | Items purchased | Item revenue |
EXPLORADOR | 33.313 | 34.132 | 34.279 | 33.325 |
INFORMES | 33.343 | 34.169 | 34.299 | 33.338 |
GBQ | 33.343 | 31.699 | 31.422 | 33.338 |
Lo primero que revisaremos será la información de un sitio ecommerce, podemos observar que, aunque los números no sean iguales, la discrepancia entre ellos es baja. Al no ser exactamente iguales a nivel agregado no causa inconvenientes, más bien, es un problema visual al ver una discrepancia de cientos o miles en algunos reportes, aunque estos cientos sean un porcentaje muy bajo.
Mirando un poco más profundo
Esto comienza a hacer ruido cuando comenzamos a buscar detalles como en este ejemplo, que es un extracto de las visitas por navegador. Aquí podemos ver que la discrepancia comienza a aumentar:
Browser | Sesiones GA4 | Sesiones GBQ |
Chrome | 46.003 | 53.997 |
Android Webview | 47.084 | 52.916 |
Safari | 47.165 | 52.835 |
Safari (in-app) | 46.992 | 53.008 |
Samsung Internet | 45.978 | 54.022 |
Opera | 45.934 | 54.066 |
Edge | 46.277 | 53.723 |
Mozilla Compatible Agent | 0.000 | 100.000 |
Internet Explorer | 0.000 | 100.000 |
Mozilla | 50.000 | 50.000 |
¿Dónde se nota más?
Cuando comenzamos a revisar datos con alta cardinalidad (muchos valores únicos), por ejemplo, al revisar y extraer ID por ID es cuando más ruido hace; en los reportes de informes no es posible obtener esta información, y la diferencia que existe entre el explorador y Google BigQuery puede hacer que exista desconfianza, ya que en este último suele haber más ID únicos, mostrando “ID” que por algún motivo no definido no se muestran en el explorador.
Tipos de reportes en GA4
Lo primero que necesitamos entender de los 3 reportes es que tienen características, potenciales y ventajas diferentes:
Los informes son reportes de índole estadística, presentan datos pre-procesados siendo agrupados, y cumplen con los requerimientos de privacidad. Estos tipos de reportes no tienen caducidad, permitiendo almacenar información por más de 14 meses (máximo para cuentas Free).
El explorador, en cambio, trabaja contando datos desde los eventos que son mucho más cercanos a los datos originales, pero pecan de imposibilitar identificar al usuario aplicando umbrales, y se ven restringidos por la caducidad de 14 meses de los datos.
Google BigQuery es la forma cruda de los datos, tiene un potencial gigante pero requiere de conocimientos básicos de BBDD y SQL para consultar los datos; permite identificar usuario por usuario, evento por evento, pero se paga por el servicio.
Looker y la API: ¿Cómo se relacionan con los reportes de Google Analytics 4 ?
Para no marearnos con más números y fuentes de datos, durante las pruebas tanto de la API como Looker no se vieron afectados por el Data Retention, es decir, que puedo consultar datos expirados por lo que podemos intuir de su naturaleza más estadística, pero parece funcionar en un estado intermedio entre informes y explorador ya que podemos traer IDS, pero no hemos encontrado mucha información de este punto en especial.
Take Away
En resumen, las 3 herramientas tienen un uso específico, sus limitaciones, y es importante definirse como organización cuál de ellas será la fuente de información. En nuestro caso, estamos usando GBQ para reportes más robustos y la API* (Datastudio o Looker). De momento, usamos la interfaz sólo para dudas muy puntuales.
Si tienes consultas, puedes revisar la información en el canal oficial de Google o comunicarte con uno de nuestros expertos.
Paulo Kemen
Chileno y publicista, bastante geek y me encanta la tecnología. Líder de innovación que encuentra la entretención al mundo de los datos y la resolución de problemas. Me defino como una persona Lupodofobica e Hipopotomonstrosesquipedaliofobico.