A veces los investigadores aplicados no tenemos muy claro qué procedimiento emplear para analizar nuestros datos, incluso en las situaciones más sencillas, como en una tabla de contingencia de 2×2.
En este post voy a tratar de mostrar algunos errores comunes, y reflexionar acerca del papel que tiene el tamaño de muestra en la interpretación de los resultados. No voy a profundizar en las múltiples opciones de análisis, sino que el objetivo es familiarizarse con la forma de manejar los datos.
Modelo de homogeneidad
En una tabla de 2×2, cuando los totales en fila están fijados por muestreo y los totales de columna son aleatorios, el modelo de probabilidad asociado a este análisis se denomina «modelo de homogeneidad» (ver Ato & López, 1996). Veamos un ejemplo (Tabla 1):
Tabla 1. Datos observados en un experimento
¿Compra el producto? | |||
Grupo | Compra | No compra | Total |
Control | 50 | 50 | 100 |
Experimental | 180 | 120 | 300 |
Total | 230 | 170 | 400 |
Aquí tenemos a 400 individuos que han participado en un estudio, asignados a dos grupos (control y experimental). Hay 100 personas en el grupo de control y 300 en el experimental, es decir, los tamaños de muestra no están balanceados.
Estamos interesados en conocer si la probabilidad de compra de un producto está asociada al grupo, o lo que es lo mismo, si aquellos que están en el grupo experimental tienen un patrón de respuesta diferente a los del grupo de control.
A primera vista parece que el grupo experimental ha comprado el producto en mayor proporción que el grupo de control: 180/300 vs 50/100, pero hay que emplear un test estadístico para comprobarlo.
El test de la chi-cuadrado
La prueba de la chi-cuadrado de Pearson, es probablemente, una de las opciones estadísticas más conocidas y empleadas. Seguiremos la notación de Ato & López (1996).
Donde nij son las frecuencias observadas y mij las frecuencias esperadas en las a filas y b columnas.
Básicamente, esta fórmula refleja la desviación cuadrática entre lo que sería esperable bajo la hipótesis nula (no hay asociación) y lo que realmente encontramos. Y esa diferencia (elevada al cuadrado para evitar compensaciones), se pondera (relativiza) por el tamaño de lo que esperamos. El valor que obtenemos sigue una distribución chi-cuadrado con grados de libertad igual al número de filas menos 1, multiplicado por el número de columnas menos 1. En el caso de una tabla de 2×2, los grados de libertad son 1.
Los resultados del análisis de la Tabla 1 nos dicen que: chi-cuadrado=3.07 y que el valor de probabilidad asociado (p-valor), es p=0.08. De este modo, el resultado no sería significativo al 95% (p>0.05), aunque sí al 90% (p<0.10). Es el investigador quien tiene que valorar en qué medida esos resultados apoyan o no su hipótesis nula de carencia de asociación.
En Stata, podemos usar el comando tabi, e incluir las frecuencias en filas.
Cuidado con la construcción de la tabla
Hemos de tener cuidado con la construcción de la tabla, porque podemos caer en el error de escribirla de la manera siguiente (Tabla 2).
Tabla 2. Datos observados en un experimento (que producen confusión)
¿Compra el producto? | ||
Grupo | Compra | Total |
Control | 50 | 100 |
Experimental | 180 | 300 |
Aunque es obvio que lo que dice la tabla es correcto, podemos confundirnos a la hora de aplicar el test de la chi-cuadrado, si tomamos el total como la columna de «no compra». Así, se podría confundir la estimación.
Afortunadamente, la salida de Stata nos da la construcción de los totales por fila y columna, y ahí podemos identificar el error que hemos cometido en la forma de programar el test.
En epidemiología, donde en ocasiones tenemos datos sobre número de enfermos o muertes sobre un total de personas/año, es fácil caer en este error.
Cuidado con las frecuencias esperadas
También hemos de estar atentos para no confundirnos al tomar las frecuencias esperadas. El test de la chi-cuadrado puede implementarse sin necesidad de establecer una tabla de contingencia 2×2 (o de mayor rango), sino simplemente a través de las categorías de una variable discreta.
Por ejemplo, imaginemos que tenemos sólo datos del grupo experimental: 300 personas, de las cuales 180 compran y 120 no compran. Si queremos testar la hipótesis de que ambos porcentajes son iguales, es decir, de que estadísticamente no hay diferencias entre comprar y no comprar, podemos tomar como frecuencia esperada 150. Entonces la fórmula sería así:
De este modo, p=0.0005, lo que sería estadísticamente significativo al 99.9% (p<0.001). Ahí podríamos concluir que, efectivamente, hay diferencias en el patrón de compra. Es decir, si no hay grupo de control, con la información que manejamos hemos de admitir diferencias significativas.
Pero, ¿qué ocurre cuando hay grupo de control?. Pues que aunque el grupo de control tenga un patrón de respuesta de 50/50, es decir, de no diferencias, los resultados cambian ostensiblemente. Y cambian porque las frecuencias esperadas no son 150 para el grupo experimental, sino 172.5 y 127.5. Si volvemos a visionar la Tabla 1, tenemos que:
Frecuencia esperada para la celda (1,1)=100*230/400=57.5
Frecuencia esperada para la celda (1,2)= 100*170/400=42.5
Frecuencia esperada para la celda (2,1)= 300*230/400=172.5
Frecuencia esperada para la celda (2,1)= 300*170/400=127.5
Con esa distribución de frecuencias esperadas, la tabla quedaría así (Tabla 3):
Tabla 3. Distribución de frecuencias esperadas
¿Compra el producto? | |||
Grupo | Compra | No compra | Total |
Control | 57.5 | 42.5 | 100 |
Experimental | 172.5 | 127.5 | 300 |
Total | 230 | 170 | 400 |
El porcentaje que compra sería del 57.5% en ambos grupos (control y experimental) y el test de la chi-cuadrado nos daría, obviamente, evidencia de que no hay ninguna asociación (quitando decimales porque las frecuencias deben ser números enteros):
Por tanto, el test de la chi-cuadrado en tablas de contingencia tiene en cuenta la información de toda la tabla para computar las frecuencias esperadas de cada celda, lo que a priori puede parecer contra intuitivo, ya que si lo que pretendemos contrastar es que no hay asociación, ¿por qué hemos de tomar como frecuencias esperadas unos valores que hacen que el porcentaje no sea del 50%?.
La respuesta a esta pregunta es, aunque parezca mentira, uno de las grandes cuestiones objeto de discusión en estadística y epidemiología, porque significa que las conclusiones que sacamos sobre la significatividad de una hipótesis sobre el comportamiento de una variable, dependen del conjunto de variables que hemos tenido en cuenta.
El debate
Si ahora los datos de la Tabla 1 hubieran sido obtenidos de una investigación en Estados Unidos y España, quedaría así (Tabla 4):
Tabla 4. Datos observados en un experimento en dos países
¿Compra el producto? | |||
País | Compra | No compra | Total |
Estados Unidos | 50 | 50 | 100 |
España | 180 | 120 | 300 |
Total | 230 | 170 | 400 |
¿Debemos entonces tener en cuenta lo que pasa en Estados Unidos para analizar si hay un resultado significativo en España? Preguntas similares a esta han llevado a algunos epidemiólogos a cuestionarse los test múltiples y los ajustes posteriores por el número de comparaciones hechas.
En cualquier caso, es un asunto muy profundo y no es objetivo de tratar en este post más allá de incluirlo como elemento de reflexión.
La muestra (casi) infinita
No obstante, todo sería más fácil si la muestra para Estados Unidos fuera casi infinita (estadísticamente hablando), y en la misma proporción (Tabla 5)
Tabla 5. Datos observados en un experimento en dos países (con muestra casi infinita en uno de ellos)
¿Compra el producto? | |||
País | Compra | No compra | Total |
Estados Unidos | 50000 | 50000 | 100000 |
España | 180 | 120 | 300 |
Total | 50180 | 50120 | 100300 |
Y ahora nos fijamos en el desarrollo de la chi-cuadrado de Pearson:
Vemos que es prácticamente idéntico al análisis que hacíamos antes sólo con el grupo experimental, es decir, haciendo un contraste enfocado sin tener en cuenta más datos.
De este modo, lo que podemos inferir de este ejemplo es que al considerar todos los datos disponibles en la tabla, estamos incluyendo toda la variabilidad inherente al conjunto de la muestra, añadiendo cada vez más ruido (las muestras casi nunca son tan grandes como sería deseable) e influyendo en los resultados de cualquier test específico que planteáramos hacer.
¿Recomendaciones? En un principio podemos sugerir que los datos hay que analizarlos con la rigurosidad de la estadística, pero mirándolos siempre de manera global y contextualizada. En función de cada objetivo de investigación y del diseño del estudio, tomar una aproximación u otra podría estar justificado.
El efecto del tamaño de la muestra en una tabla de 2×2
La Tabla 1 también puede analizarse usando el test Z de diferencia en probabilidades (ver Ato & López, 1996).
donde:
p11=n11/n1. siendo n1. el total de la fila 1
p21=n21/n2. siendo n2. el total de la fila 2
= (n11+n21)/(n1.+n2.), es decir una estimación media de la probabilidad de la primera columna
De este modo: Z=-1.75, lo que no es significativo al 95% (Z=-1.96).
Como bien es sabido, la chi-cuadrado es una suma de variables Z al cuadrado, por lo que Z2=3.069, que es precisamente el valor obtenido de la chi-cuadrado.
Para simular el comportamiento de Z cuando cambia el tamaño de la muestra, vamos a suponer que la Tabla 1 es ahora así (Tabla 6):
Tabla 6. Datos observados en un experimento
¿Compra el producto? | |||
Grupo | Compra | No compra | Total |
Control | 150 | 150 | 300 |
Experimental | 180 | 120 | 300 |
Total | 230 | 270 | 600 |
Es decir, tenemos las mismas probabilidades de celda que en el caso anterior, pero con el mismo tamaño de muestra en cada fila:
Vamos a programar en Maxima usando el siguiente código:
Z99: -2.56; Z95: -1.96;Z90 -1.64 ;
A:-0.1; B:0.55; g1(A,B,x):=block([Z, C], funcion:g1(A,B,x)$ plot2d([funcion, Z99,Z95,Z90], [x,0,1000],[y,-3,0],[legend,false],[xlabel,»Tamaño de la muestra»], [ylabel, «Z»],[color, red, magenta, orange, green]); |
Lo que hemos hecho es muy sencillo. En primer lugar, hemos estipulado los valores de corte del estadístico Z al 99%, 95% y 90% (en el lado negativo de la distribución), con los colores magenta, naranja y verde, respectivamente.
En segundo lugar le damos valores a A y B, siendo:
A=p11-p21
B=
Es decir, según la Tabla 6, A=-0.1 y B=0.55
En tercer lugar, generamos la función g1 donde reproducimos la fórmula de Z en función de A, B y C, estipulando que C=4/x. La explicación del valor de C es simple, ya que hemos considerado que los totales en fila son iguales.
Dado que n1=x/2, siendo x el tamaño total de la muestra, entonces C=4/x
El gráfico que obtenemos en función del tamaño de la muestra es este:
Como puede apreciarse, para valores idénticos de probabilidad, la significatividad del test Z (y por ende de la chi-cuadrado), se incrementa con el tamaño muestral. En otras, palabras, y como no podía ser de otro modo, cuanta más muestra tenemos más capacidad disponemos para detectar efectos significativos con los mismos valores de probabilidad en las celdas de la tabla de contingencia.
(La simulación no es estrictamente correcta porque el valor de también cambia con el tamaño muestral, pero son cambios relativamente pequeños y no alteran en demasía la interpretación, por lo que por sencillez de cálculo lo hemos omitido).
Conclusión
Hemos visto que analizar una sencilla tabla de 2×2 conlleva una serie de cuestiones y matices importantes a nivel estadístico y conceptual. Los investigadores aplicados, que no somos más que unos simples estudiantes que tratamos de aprender de las grandes eminencias en estadística y metodología, debemos afrontarlas y evitar los errores de interpretación.
Existen más herramientas, como el test exacto de Fisher, por ejemplo, que también se emplean con mucha profusión (y que es preferible a la chi-cuadrado con muestras pequeñas). Pero cada test tiene sus particularidades y sus limitaciones.
El establecimiento de grupos de control y la consideración de sus datos tiene más sentido cuando no se conoce a priori la proporción de casos sobre la que hacer la comparación del grupo experimental (no es evidente que sea un número conocido a priori). Esto ocurre, por ejemplo, cuando el control es un grupo al que se le suministra placebo.
Aún así, fijando una probabilidad a priori sobre la que contrastar la hipótesis, con el grupo experimental únicamente se podría completar el análisis. Sin embargo, perderíamos información sobre la idoneidad o no de la intervención (en términos de coste-beneficio), ya que no intervenir podría reportar beneficios similares sin ningún coste.
No vamos alargar más la discusión, porque ciertamente es casi interminable. Si el estudiante ha llegado hasta aquí pacientemente, este no sería el final, porque podríamos introducir medidas de tamaño de efecto para tener en cuenta el tamaño muestral. En el caso de la chi-cuadrado se suele usar el coeficiente phi.
En mi experiencia, quizá la forma más efectiva para lidiar con la sensibilidad muestral y con las dificultades de interpretación es replicar el estudio, y si es posible más de una vez. Un visionado conjunto a esas replicaciones ayudaría bastante a obtener conclusiones válidas, pero, desafortunadamente, no siempre es posible llevarlas a cabo.