(#381). TABLAS DE TUMORES TOTALES EN EL ESTUDIO DEL NTP SOBRE EFECTOS DE LA RADIACIÓN DE TELÉFONO MÓVIL

[MONOTEMA] El Programa Nacional de Toxicología (NTP) de Estados Unidos ha publicado por fin los resultados del estudio que llevaban realizando desde 1999.

Joel M. Moskowitz, investigador de la School of Public Health de la Universidad de California, Berkeley, ha publicado un comentario en su blog sobre un aspecto del informe final que, a su juicio, debería de haber tenido mayor relevancia.

Se trata de los resultados totales de tumores benignos y malignos, los cuales han sido derivados al apéndice. Moskowitz, que lleva muchos años advirtiendo sobre los efectos nocivos de la radiofrecuencia, y en particular de los teléfonos móviles, insiste en que esas proporciones de tumores totales reforzaban aún más las conclusiones del estudio.

Como ya es bien conocido, el estudio del NTP, evaluado también por un panel de expertos externo, ha encontrado evidencia clara de un incremento de riesgo de tumores en el corazón en ratas macho, y también evidencia (aunque menos contundente) de mayor riesgo de cáncer en el cerebro y glándulas suprarrenales. Para ratas hembra y ratones de ambos sexos la evidencia es menos clara.

Estos resultados (en conjunción con la evidencia acumulada en otros estudios) de nuevo reafirman la idea de que la radiación no ionizante puede provocar cáncer, incluso a niveles de exposición cercanos a los límites legales. Por supuesto, hay otros efectos biológicos negativos además del cáncer que también se asocian a estas exposiciones a niveles mucho más bajos.

Sin embargo, es cierto que el estudio deja algunas incógnitas que dificultan su interpretación. El hecho de que los resultados tan concluyentes encontrados en ratas macho no lo sean tanto en los otros 3 grupos, unido a que la esperanza de vida entre ratas macho era mayor (debido a menors problemas crónicos de riñón), añade ruido, ciertamente.

No obstante, mirando a los resultados globalmente, hay poco margen para la duda; existe un efecto negativo de la exposición a radiofrecuencia, que probablemente habría sido más claro si el tamaño de las muestras en los diferentes subgrupos hubiera sido mayor.

El comentario de Moskowitz

El profesor Moskowitz indica que la interpretación de los resultados habría sido más clara incluyendo estas tablas en el documento principal (y no en los apéndices):

GSM male rats final overall tumor rates header GSM male rats final overall tumor rates CDMA male rats final overall tumor rates combined CDMA male rats final overall tumor rates header CDMA male rats final overall tumor ratesGSM male rats final overall tumor rates combined

NTP appendix footnotes

Como bien indica Moskowitz, este tipo de análisis globales suele tender hacia la hipótesis nula de no efecto, ya que el incremento de tumores en una o unas pocas áreas del cuerpo queda empequeñecido debido a las no incidencia en otras. Es decir, si un agente externo causa claramente un determinado cáncer, realizar un análisis global de todos los tipos de cáncer puede hacer que se concluya que ese agente no está relacionado con el cáncer, cuando obviamente sí lo está pero sólo de un tipo.

No obstante, Moskowitz ve claros indicios en estas tablas de que la incidencia global de tumores es mayor en los grupos expuestos, lo que ayudaría a esclarecer algunas de las incógnitas comentadas anteriormente sobre los resultados.

Complejidad estadística

Lo ideal sería poder acceder a todos los datos de los experimentos para realizar reanálisis estadísticos. Hay que reconocer, sin embargo, que los autores se encontraban ante un diseño metodológico complejo, donde debían tener en cuenta las muertes no asociadas al cáncer, y la falta de independencia entre algunos animales anidados en camadas. Todo esto complica los análisis estadísticos.

Los autores tratan de considerar estos matices en el test Poly-K, con el ajuste de Rao-Scott. En este caso, este es el test estadístico principal de las tablas, y el que muestra si existen diferencias entre las incidencias de cáncer.

Este test indica que para el caso de ratas macho expuestas a GSM, no existen diferencias en tumores malignos con respecto al grupo de control (p=0.100; p=0.081; p=0.197), aunque cuando se tienen en cuenta también las neoplasias benignas, el dibujo se modifica un poco (p=0.061; p=0.009; p=0.096).

Para las ratas expuestas a CDMA el patrón es similar: nos acercamos a la significatividad en los tumores malignos (p=0.509; p=0.031; p=0.076), y también en las neoplasias totales (p=0.009; p=0.014; p=0.210).

Por tanto, parece evidente que los tumores, tanto malignos como benignos se incrementan en los grupos experimentales, expuestos a ambos tipos de señal de radiofrecuencia. Este patrón es innegable; lo que sucede es que los resultados se embarran un poco cuando el máximo efecto sucede para 3W/kg, y no para 6W/kg. Estos resultados pueden ser debidos a la variabilidad muestral, pero como el patrón se repite en todos los casos de esta tabla, dejan algunas dudas sobre la existencia de un posible efecto de hormesis, es decir, sobre la existencia de un fenómeno no lineal de respuesta a la dosis.

Podemos simular los análisis de tendencia en las proporciones, aunque sin tener en cuenta ciertas matizaciones (importantes) de los autores, pero que nos dan una idea de la tendencia lineal del efecto:

Así, podemos realizar varios test de tendencia lineal, y vemos lo siguiente:

  GSM   CDMA  
 Ratas totales Tumores malignos Todos los tumores Tumores malignos Todos los tumores
Tendencia lineal  p=0.087  p=0.008  p=0.026  p=0.300
Desviación de la linealidad  p=0.254  p=0.015  p=0.136  p=0.001

Esta tabla nos dice que es muy arriesgado apostar por la hipótesis lineal, ya que las desviaciones son significativas para todos los tumores, aunque no llegan a ello en los tumores malignos. De este modo, interpretar el p-valor de la tendencia lineal no tiene sentido en el caso de todos los tumores, y es quizá un pelín arriesgado para los tumores malignos. Aún así, si se apuesta por ello, los resultados están en el entorno de p=0.05 (que recordemos que no es ningún número mágico, sino simplemente un criterio más que ha de ser evaluado con matices considerando la globalidad de los análisis).

Los autores emplean también el test de Fisher para evaluar la incidencia en las camadas, y este análisis es también muy interesante. De nuevo, la inspección de las tablas anteriores nos lleva a concluir que efectivamente existe un efecto significativo en el desarrollo de cáncer, más acusado cuando se tienen en cuenta todos los tumores.

De nuevo podemos realizar un análisis de tendencia:

  GSM   CDMA  
 Camadas Tumores malignos Todos los tumores Tumores malignos Todos los tumores
Tendencia lineal  p=0.045  p=0.011  p=0.022  p=0.051
Desviación de la linealidad  p=0.618  p=0.346  p=0.273  p=0.012

De nuevo vemos que la hipótesis lineal es cuestionable en algunos casos (todos los tumores en CDMA), pero se sostiene en el resto, mostrando valores significativos.

Para explorar la hipótesis no lineal, podemos implementar polinomios de Lagrange de grado 3.  Admitiendo las limitaciones de estas aproximaciones, nos puede dar una idea útil del número de tumores estimado en el rango de densidades de potencia de los experimentos. El siguiente código de Maxima permite obtenerlos y representarlos para el caso de tumores malignos, tanto en la exposición a GSM como a CDMA:

p1(x):=(x-x1)*(x-x2)*(x-x3)*fx0/((x0-x1)*(x0-x2)*(x0-x3))+
(x-x0)*(x-x2)*(x-x3)*fx1/((x1-x0)*(x1-x2)*(x1-x3))+
(x-x0)*(x-x1)*(x-x3)*fx2/((x2-x0)*(x2-x1)*(x2-x3))+
(x-x0)*(x-x1)*(x-x2)*fx3/((x3-x0)*(x3-x1)*(x3-x2));
x0:0;
x1:1.5;
x2:3;
x3:6;
fx0:24;
fx1:36;
fx2:38;
fx3:35;
solucion_GSM: expand(p1(x));
p2(x):=(x-x1)*(x-x2)*(x-x3)*fx0_/((x0-x1)*(x0-x2)*(x0-x3))+
(x-x0)*(x-x2)*(x-x3)*fx1_/((x1-x0)*(x1-x2)*(x1-x3))+
(x-x0)*(x-x1)*(x-x3)*fx2_/((x2-x0)*(x2-x1)*(x2-x3))+
(x-x0)*(x-x1)*(x-x2)*fx3_/((x3-x0)*(x3-x1)*(x3-x2));
x0:0;
x1:1.5;
x2:3;
x3:6;
fx0_:24;
fx1_:26;
fx2_:41;
fx3_:34;
solucion_CDMA: expand(p2(x));
x_:[0,1.5,3,6];
fx_GSM:[24,36,38,35];
fx_CDMA:[24,26,41,34];
sig95: 35;
plot2d([[discrete, x_, fx_GSM],[discrete, x_, fx_CDMA],solucion_GSM, solucion_CDMA, sig95],
[x,0,6],[y,0,52], [style, points,points, lines,lines, lines, linespoints], [color,red, red, green, orange,black],
[xlabel, “Exposición (W/kg)”],[ylabel, “Tumores malignos”], [legend, false]);

Tumoresmalignos

La línea negra marca el límite aproximado de la signifiación estadística al 95% para un test de Fisher de una cola con respecto al grupo de control (exposición=0). La curva verde es la de GSM, mientras que la naranja es la de CDMA.

Para el caso de tumores totales, podemos programar con Maxima:

p1(x):=(x-x1)*(x-x2)*(x-x3)*fx0/((x0-x1)*(x0-x2)*(x0-x3))+
(x-x0)*(x-x2)*(x-x3)*fx1/((x1-x0)*(x1-x2)*(x1-x3))+
(x-x0)*(x-x1)*(x-x3)*fx2/((x2-x0)*(x2-x1)*(x2-x3))+
(x-x0)*(x-x1)*(x-x2)*fx3/((x3-x0)*(x3-x1)*(x3-x2));
x0:0;
x1:1.5;
x2:3;
x3:6;
fx0:57;
fx1:73;
fx2:78;
fx3:71;
solucion_GSM: expand(p1(x));
p2(x):=(x-x1)*(x-x2)*(x-x3)*fx0_/((x0-x1)*(x0-x2)*(x0-x3))+
(x-x0)*(x-x2)*(x-x3)*fx1_/((x1-x0)*(x1-x2)*(x1-x3))+
(x-x0)*(x-x1)*(x-x3)*fx2_/((x2-x0)*(x2-x1)*(x2-x3))+
(x-x0)*(x-x1)*(x-x2)*fx3_/((x3-x0)*(x3-x1)*(x3-x2));
x0:0;
x1:1.5;
x2:3;
x3:6;
fx0_:57;
fx1_:75;
fx2_:76;
fx3_:63;
solucion_CDMA: expand(p2(x));
x_:[0,1.5,3,6];
fx_GSM:[57,73,78,71];
fx_CDMA:[57,75,76,63];
sig95: 68;
plot2d([[discrete, x_, fx_GSM],[discrete, x_, fx_CDMA],solucion_GSM, solucion_CDMA, sig95],
[x,0,6],[y,0,85], [style, points,points, lines,lines, lines, linespoints], [color,red, red, green, orange,black],
[xlabel, “Exposición (W/kg)”],[ylabel, “Tumores totales”], [legend, false]);

Como antes, la línea negra marca el límite aproximado de la signifiación estadística al 95% para un test de Fisher de una cola con respecto al grupo de control (exposición=0). La curva verde es la de GSM, mientras que la naranja es la de CDMA.

Conclusión

Siempre hemos de ser prudentes en la interpretación estadística, sobre todo con tamaños de muestra pequeños y tamaños de efecto también pequeños. Esto quiere decir que si los efectos no son grandes en magnitud son difíciles de detectar en muestras pequeñas. El concepto de tamaño de efecto pequeño es también matizable, ya que no significa lo mismo cuando estamos hablando de, por ejemplo, renta per cápita, que de vidas humanas.

De nuevo insisto en que, más allá del p-valor, hemos de mirar a los datos en su globalidad. Si hacemos ese ejercicio, y teniendo en cuenta el apoyo de la estadística, la conclusión es poco discutible acerca de la relación causa-efecto entre la radiación de móviles y el desarrollo de tumores.

Otra cosa es la “edulcoración” que parece que algunos miembros del NTP han hecho a posteriori de los resultados argumentando que las densidades de potencia de emisión estaban en el límite o más allá de lo que es legal, y por tanto de la realidad de exposición de los usuarios de teléfonos móviles. Sin embargo, el caso Phonegate y la sobre exposición a radiación no ionizante de múltiples dispositivos inalámbricos cuestionan esa “tranquilizadora” interpretación, que huele más a excusa para que la FDA, la EPA y la FCC no tomen cartas en el asunto. De hecho, la nota de prensa de la FDA del 1 de noviembre no tiene desperdicio.

En cualquier caso, es cierto que la aparante relación no lineal entre la dosis y la respuesta necesita mayor explicación, así como otras incógnitas que el estudio (de 30 millones de dólares) no ha desvelado en su totalidad.

Finalmente, hemos de recordar que este estudio no trata sobre otras enfermedades y trastornos que pudiera ocasionar la exposición a radiofrecuencia y, aunque no deriven en tumores, son de extrema importancia para evaluar este tema en su totalidad.

Todos los posts relacionados




(#380). ÍNDICES APROXIMADOS FLEXIBLES EN ECUACIONES ESTRUCTURALES

[REVISIÓN DE ARTÍCULO] En este artículo publicado en el Journal of the Academy of Marketing Science, los autores proponen desterrar definitivamente los umbrales para índices aproximados en ecuaciones estructurales, y a cambio emplear una perspectiva flexible, basada en los resultados de simulaciones para las condiciones de cada modelo especificado.

Esos índices aproximados no son test estadísticos como tal, porque su distribución es desconocida bajo la hipótesis nula, y los valores de corte se toman como criterio para decidir acerca de la validez del modelo.

Sin embargo, y como indican los autores, existe literatura convincente que especifica que tomar esos criterios de corte sin considerar las características propias de cada modelo (tamaño de muestra, grados de libertad, número de indicadores, etc.) puede producir resultados que contaminen esa capacidad de los índices aproximados para identificar modelos correctos y rechazar falsos.

Lo que plantean los autores es construir distribuciones empíricas para una multitud de formas de modelos de ecuaciones estructurales, y a través de esa distribución empírica (tras realizar cientos de simulaciones), reportar unos índices aproximados con criterios de corte flexibles para cada caso.

Un “no” a la chi-cuadrado

Los autores se posicionan claramente en contra respecto a las visiones de la idoneidad de confiar únicamente en el ajusto vía test de la chi-cuadrado, como hemos visto en otras entradas del blog. Para ellos, las limitaciones de la chi-cuadrado asociadas a su sensibilidad al tamaño de la muestra es motivo más que suficiente para no considerarla como índice de ajuste.

Los autores, sin embargo, argumentan también que el tamaño de la muestra, el tamaño del modelo, el modelo demedida, el tipo de modelo, y la normalidad de la distribución de datos afectan también a los índices aproximados. Esa es la razón por la cual no deben establecer criterios de corte univeresales.

Metodología

Los autores realizan 3 estudios de simulación Monte Carlo, pero lo hacen sólo con modelos de análisis factorial confirmatorio (CFA). Y esto es importante, porque aunque enfatizan que el CFA es más empleado que el resto de modelos causales, están obviando una parte esencial de la utilidad de SEM, la que para algunos autores como Leslie Hayduk es la principal.

Así, los autores configuraron 13851 modelos de CFA con diferentes combinaciones de cargas factoriales, tamaños de muestra, número de variables latentes e indicadores, así como la desviación de la normalidad.

Resultados e implicaciones

Los autores apuestan por el SRMR (como primera opción), CFI, TLI y RMSEA como segunda, en un enfoque de combinación de varios índices ya que todos tienes limitaciones. Concretamente, recomiendan el uso del SRMR (más sensible a la mala especifiación en el modelo estructural), junto a uno de los otros 3 mencionados (más sensibles a la especifiación en el modelo de medida).

Así, cualquier investigador interesado en esta propuesta puede emplear la web www.flexiblecutoffs.org, y especificar los datos de su propio modelo, obteniendo unas recomedaciones sobre los valores de corte de los índices aproximados comentados.

Limitaciones/Comentarios

Los autores reconocen que su propuesta no es sobre la idoneidad de los índices aproximados, sino sobre la estipulación de criterios de corte universales. Es decir, las limitaciones de cada índice aproximado siguen estando ahí, independientemente de que se adopte esta perspectiva flexible.

Sin embargo, es interesante el recorrido que hacen por la literatura que argumenta que los índices aproximados se ven afectados por características del modelo que no están relacionadas con la mala especificación. Su primer estudio, también ofrece resultados consistentes con este hecho.

Los autores separan el modelo de medida del modelo estructural pero no discuten el hecho de que en ambos se especifican relaciones causales. Por tanto, incluso un CFA tiene relaciones causales explicitadas en la relación entre las variables latentes y sus observables. Desde ese punto de vista, la distinción puede resultar engañosa y ocultar problemas mayores, como que los investigadores separen ambos modelos (en el típico test en 2 pasos, primero CFA y luego el modelo causal entre variables latentes), cuando el planteamiento de un modelo es global, integrando la medición observable junto con la causalidad entre latentes.

En definitiva, una propuesta relevante que puede ayudar a investigadores a interpretar mejor los análisis factoriales confirmatorios, pero que obvia el papel del test de la chi-cuadrado al considerarlo muy limitado por su dependencia al tamaño muestral, lo que choca con otras posturas ya comentadas en este blog.

LEE EL ARTÍCULO AQUÍ

Niemand, T. & Mai, R. (2018). Flexible cutoff values for fit indices in the evaluation of structural equation models. Journal of the Academy of Marketing Science, doi:10.1007/s11747-018-0602-9.

Indicadores de calidad de la revista*

  Impact Factor (2017) Cuartil Categoría
Thomson-Reuters (JCR) 8.488 Q1 BUSINESS
Scimago (SJR) 4.614 Q1 MARKETING

* Es simplemente un indicador aproximado para valorar la calidad de la publicación

Todos los posts relacionados




(#366). MODELO DE HOMOGENEIDAD EN TABLAS DE 2X2

[MONOTEMA] A veces los investigadores aplicados no tenemos muy claro qué procedimiento emplear para analizar nuestros datos, incluso en las situaciones más sencillas, como en una tabla de contingencia de 2×2.

En este post voy a tratar de mostrar algunos errores comunes, y reflexionar acerca del papel que tiene el tamaño de muestra en la interpretación de los resultados. No voy a profundizar en las múltiples opciones de análisis, sino que el objetivo es familiarizarse con la forma de manejar los datos.

Modelo de homogeniedad

En una tabla de 2×2, cuando los totales en fila están fijados por muestreo y los totales de columna son aleatorios, el modelo de probabilidad asociado a este análisis se denomina “modelo de homogeneidad” (ver Ato & López, 1996). Veamos un ejemplo (Tabla 1):

Tabla 1. Datos observados en un experimento

  ¿Compra el producto?  
Grupo Compra No compra Total
Control 50 50 100
Experimental 180 120 300
Total 230 170 400

Aquí tenemos a 400 individuos que han participado en un estudio, asignados  a dos grupos (control y experimental). Hay 100 personas en el grupo de control y 300 en el experimental, es decir, los tamaños de muestra no están balanceados.

Estamos interesados en conocer si la probabilidad de compra de un producto está asociada al grupo, o lo que es lo mismo, si aquellos que están en el grupo experimental tienen un patrón de respuesta diferente a los del grupo de control.

A primera vista parece que el grupo experimental ha comprado el producto en mayor proporción que el grupo de control: 180/300 vs 50/100, pero hay que emplear un test estadístico para comprobarlo.

El test de la chi-cuadrado

La prueba de la chi-cuadrado de Pearson, es probablemente, una de las opciones estadísticas más conocidas y empleadas. Seguiremos la notación de Ato & López (1996). 

Donde nij son las frecuencias observadas y mij las frecuencias esperadas en las a filas y b columnas.

Básicamente, esta fórmula refleja la desviación cuadrática entre lo que sería esperable bajo la hipótesis nula (no hay asociación) y lo que realmente encontramos. Y esa diferencia (elevada al cuadrado para evitar compensaciones), se pondera (relativiza) por el tamaño de lo que esperamos. El valor que obtenemos sigue una distribución chi-cuadrado con grados de libertad igual al número de filas menos 1, multiplicado por el número de columnas menos 1. En el caso de una tabla de 2×2, los grados de libertad son 1.

Los resultados del análisis de la Tabla 1 nos dicen que: chi-cuadrado=3.07 y que el valor de probabilidad asociado (p-valor), es p=0.08. De este modo, el resultado no sería significativo al 95% (p>0.05), aunque sí al 90% (p<0.10). Es el investigador quien tiene que valorar en qué medida esos resultados apoyan o no su hipótesis nula de carencia de asociación.

En Stata, podemos usar el comando tabi, e incluir las frecuencias en filas tal y como se muestra a continuación.

365_2

Cuidado con la construcción de la tabla

Hemos de tener cuidado con la construcción de la tabla, porque podemos caer en el error de escribirla de la manera siguiente (Tabla 2).

Tabla 2. Datos observados en un experimento (que producen confusión)

  ¿Compra el producto?
Grupo Compra Total
Control 50 100
Experimental 180 300

Aunque es obvio que lo que dice la tabla es correcto, podemos confundirnos a la hora de aplicar el test de la chi-cuadrado, si tomamos el total como la columna de “no compra”. Así, se podría confundir la estimación, tal y como muestro en esta salida de Stata:

365_3

Afortunadamente, la salida de Stata nos da la construcción de los totales por fila y columna, y ahí podemos identificar el error que hemos cometido en la forma de programar el test.

En epidemiología, donde en ocasiones tenemos datos sobre número de enfermos o muertes sobre un total de personas/año, es fácil caer en este error.

Cuidado con las frecuencias esperadas

También hemos de estar atentos para no confundirnos al tomar las frecuencias esperadas. El test de la chi-cuadrado puede implementarse sin necesidad de establecer una tabla de contingencia 2×2 (o de mayor rango), sino simplemente a través de las categorías de una variable discreta.  

Por ejemplo, imaginemos que tenemos sólo datos del grupo experimental: 300 personas, de las cuales 180 compran y 120 no compran. Si queremos testar la hipótesis de que ambos porcentajes son iguales, es decir,  de que estadísticamente no hay diferencias entre comprar y no comprar, podemos tomar como frecuencia esperada 150. Entonces la fórmula sería así:

De este modo, p=0.0005, lo que sería estadísticamente significativo al 99.9% (p<0.001). Ahí podríamos concluir que, efectivamente, hay diferencias en el patrón de compra. Es decir, si no hay grupo de control, con la información que manejamos hemos de admitir diferencias significativas.

Pero, ¿qué ocurre cuando hay grupo de control?. Pues que aunque el grupo de control tenga un patrón de respuesta de 50/50, es decir, de no diferencias, los resultados cambian ostensiblemente. Y cambian porque las frecuencias esperadas no son 150 para el grupo experimental, sino 172.5 y 127.5. Si volvemos a visionar la Tabla 1, tenemos que:

Frecuencia esperada para la celda (1,1)=100*230/400=57.5

Frecuencia esperada para la celda (1,2)= 100*170/400=42.5

Frecuencia esperada para la celda (2,1)= 300*230/400=172.5

Frecuencia esperada para la celda (2,1)= 300*170/400=127.5

Con esa distribución de frecuencias esperadas, la tabla quedaría así (Tabla 3):

Tabla 3. Distribución de frecuencias esperadas

  ¿Compra el producto?  
Grupo Compra No compra Total
Control 57.5 42.5 100
Experimental 172.5 127.5 300
Total 230 170 400

El porcentaje que compra sería del 57.5% en ambos grupos (control y experimental) y el test de la chi-cuadrado nos daría, obviamente, evidencia de que no hay ninguna asociación (quitando decimales porque las frecuencias deben ser números enteros):

365_4

Por tanto, el test de la chi-cuadrado en tablas de contingencia tiene en cuenta la información de toda la tabla para computar las frecuencias esperadas de cada celda, lo que a priori puede parecer contra intuitivo, ya que si lo que pretendemos contrastar es que no hay asociación, ¿por qué hemos de tomar como frecuencias esperadas unos valores que hacen que el porcentaje no sea del 50%?.

La respuesta a esta pregunta es, aunque parezca mentira, uno de las grandes cuestiones objeto de discusión en estadística y epidemiología, porque significa que las conclusiones que sacamos sobre la significatividad de una hipótesis sobre el comportamiento de una variable, dependen del conjunto de variables que hemos tenido en cuenta. 

El debate

Si ahora los datos de la Tabla 1 hubieran sido obtenidos de una investigación en Estados Unidos y España, quedaría así (Tabla 4):

Tabla 4. Datos observados en un experimento en dos países

  ¿Compra el producto?  
País Compra No compra Total
Estados Unidos 50 50 100
España 180 120 300
Total 230 170 400

¿Debemos entonces tener en cuenta lo que pasa en Estados Unidos para analizar si hay un resultado significativo en España? Preguntas similares a esta han llevado a algunos epidemiólogos a cuestionarse los test múltiples y los ajustes posteriores por el número de comparaciones hechas. 

En cualquier caso, es un asunto muy profundo y no es objetivo de tratar en este post más allá de incluirlo como elemento de reflexión.

La muestra (casi) infinita

No obstante, todo sería más fácil si la muestra para Estados Unidos fuera casi infinita (estadísticamente hablando), y en la misma proporción (Tabla 5)

Tabla 5. Datos observados en un experimento en dos países (con muestra casi infinita en uno de ellos)

  ¿Compra el producto?  
País Compra No compra Total
Estados Unidos 50000 50000 100000
España 180 120 300
Total 50180 50120 100300

 Y ahora nos fijamos en el desarrollo de la chi-cuadrado de Pearson:

Vemos que es prácticamente idéntico al análisis que hacíamos antes sólo con el grupo experimental, es decir, haciendo un contraste enfocado sin tener en cuenta más datos.

De este modo, lo que podemos inferir de este ejemplo es que al considerar todos los datos disponibles en la tabla, estamos incluyendo toda la variabilidad inherente al conjunto de la muestra, añadiendo cada vez más ruido (las muestras casi nunca son tan grandes como sería deseable) e influyendo en los resultados de cualquier test específico que planteáramos hacer.

¿Recomendaciones? En un principio podemos sugerir que los datos hay que analizarlos con la rigurosidad de la estadística, pero mirándolos siempre de manera global y contextualizada. En función de cada objetivo de investigación y del diseño del estudio, tomar una aproximación u otra podría estar justificado.

El efecto del tamaño de la muestra en una tabla de 2×2

La Tabla 1 también puede analizarse usando el test Z de diferencia en probabilidades (ver Ato & López, 1996). 

donde:

p11=n11/n1. siendo n1. el total de la fila 1

p21=n21/n2. siendo n2. el total de la fila 2

 = (n11+n21)/(n1.+n2.), es decir una estimación media de la probabilidad de la primera columna

De este modo: Z=-1.75, lo que no es significativo al 95% (Z=-1.96).

Como bien es sabido, la chi-cuadrado es una suma de variables Z al cuadrado, por lo que Z2=3.069, que es precisamente el valor obtenido de la chi-cuadrado.

Para simular el comportamiento de Z cuando cambia el tamaño de la muestra, vamos a suponer que la Tabla 1 es ahora así (Tabla 6):

Tabla 6. Datos observados en un experimento

  ¿Compra el producto?  
Grupo Compra No compra Total
Control 150 150 300
Experimental 180 120 300
Total 230 270 600

Es decir, tenemos las mismas probabilidades de celda que en el  caso anterior, pero con el mismo tamaño de muestra en cada fila:

Vamos a programar en Maxima usando el siguiente código:

Z99: -2.56; Z95: -1.96;Z90 -1.64 ;

A:-0.1; B:0.55;

g1(A,B,x):=block([Z, C],
C:4/x,
Z:(A)/(sqrt(B*(1-B)*C)),
return(Z)
)$

funcion:g1(A,B,x)$

plot2d([funcion, Z99,Z95,Z90], [x,0,1000],[y,-3,0],[legend,false],[xlabel,”Tamaño de la muestra”], [ylabel, “Z”],[color, red, magenta, orange, green]);

Lo que hemos hecho es muy sencillo. En primer lugar, hemos estipulado los valores de corte del estadístico Z al 99%, 95% y 90% (en el lado negativo de la distribución), con los colores magenta, naranja y verde, respectivamente.

En segundo lugar le damos valores a A y B, siendo:

A=p11-p21

B=

Es decir, según la Tabla 6, A=-0.1 y B=0.55

En tercer lugar, generamos la función g1 donde reproducimos la fórmula de Z en función de A, B y C,  estipulando que C=4/x. La explicación del valor de C es simple, ya que hemos considerado que los totales en fila son iguales.

Dado que n1=x/2, siendo x el tamaño total de la muestra, entonces C=4/x

El gráfico que obtenemos en función del tamaño de la muestra es este:

365_5

Como puede apreciarse, para valores idénticos de probabilidad, la significatividad del test Z (y por ende de la chi-cuadrado), se incrementa con el tamaño muestral. En otras, palabras, y como no podía ser de otro modo, cuanta más muestra tenemos más capacidad disponemos para detectar efectos significativos con los mismos valores de probabilidad en las celdas de la tabla de contingencia.

(La simulación no es estrictamente correcta porque el valor de  también cambia con el tamaño muestral, pero son cambios relativamente pequeños y no alteran en demasía la interpretación, por lo que por sencillez de cálculo lo hemos omitido).

Conclusión

Hemos visto que analizar una sencilla tabla de 2×2 conlleva una serie de cuestiones y matices importantes a nivel estadístico y conceptual. Los investigadores aplicados, que no somos más que unos simples estudiantes que tratamos de aprender de las grandes eminencias en estadística y metodología, debemos afrontarlas y evitar los errores de interpretación. 

Existen más herramientas, como el test exacto de Fisher, por ejemplo, que también se emplean con mucha profusión (y que es preferible a la chi-cuadrado con muestras pequeñas). Pero cada test tiene sus particularidades y sus limitaciones.

El establecimiento de grupos de control y la consideración de sus datos tiene más sentido cuando no se conoce a priori la proporción de casos sobre la que hacer la comparación del grupo experimental (no es evidente que sea un número conocido a priori). Esto ocurre, por ejemplo, cuando el control es un grupo al que se le suministra placebo.

Aún así, fijando una probabilidad a priori sobre la que contrastar la hipótesis, con el grupo experimental únicamente se podría completar el análisis. Sin embargo, perderíamos información sobre la idoneidad o no de la intervención (en términos de coste-beneficio), ya que no intervenir podría reportar beneficios similares sin ningún coste.

No vamos alargar más la discusión, porque ciertamente es casi interminable. Si el estudiante ha llegado hasta aquí pacientemente, este no sería el final, porque podríamos introducir medidas de tamaño de efecto para tener en cuenta el tamaño muestral. En el caso de la chi-cuadrado se suele usar el coeficiente phi.

En mi experiencia, quizá la forma más efectiva para lidiar con la sensibilidad muestral y con las dificultades de interpretación es replicar el estudio, y si es posible más de una vez. Un visionado conjunto a esas replicaciones ayudaría bastante a obtener conclusiones válidas, pero, desafortunadamente, no siempre es posible llevarlas a cabo.

Todos los posts relacionados