Aris Spanos muestra su visión sobre la controversia acerca del uso del p-valor en este artículo publicado dentro de un especial de la revista Ecology. Dada la trayectoria y postulados de este investigador, es relevante mostrar un resumen de su contenido.
Fisher veía el p-valor como un indicador de inconsistencia entre los datos x0 y la hipótesis nula H0, donde el valor real de p indica la fuerza de la evidencia en contra de la hipótesis. Desde este punto de vista, la evaluación se realiza post-data, y es una medida del error posible a cometer.
Newman y Pearson (N-P) debatieron fuertemente con Fisher su propuesta, y replicaron con la introducción de una hipótesis alternativa H1, y el establecimiento de un umbral de corte para el p-valor (pre-data), lo que durante muchos años ha sido la forma mayoritaria de proceder de los investigadores aplicados.
Pero, según Spanos, ninguno de los dos postulados resuelve con diligencia una pregunta esencial: ¿Cúando los datos x0 proveen evidencia en favor o en contra de una hipótesis? Así, Spanos mostrará algunas limitaciones del p-valor y las ventajas de adoptar una visión de error-statistical, , respetando la base fundamental de la estadística de la propuesta de N-P.
La diferencia entre Fisher y N-P
Spanos ejemplifica su argumentario con la ilustración del caso más simple, donde la variable aleatoria Xt siguen una distribución NIID (normal, independiente e idénticamente distribuida) con media μ y desviación típica σ, donde se establece H0: μ=μ0 y H1: μ>μ0.
A través de un estadístico de contraste ζ(X) que sigue una distribución t-Student bajo H0 (dado que lo habitual es usar la cuasivarianza muestral en lugar de la varianza poblacional, que casi siempre es desconocida), se evalúa P(ζ(X)>ζ(x0):H0)=p(x0), que es la probabilidad de obtener un valor del test estadístico ζ(X) al menos tan extremo como el observado con los datos ζ(x0), asumiendo que la hipótesis nula es cierta. Esto es lo que nos dice un p-valor, ni más ni menos.
Por tanto, y dado que el estadístico de contraste es una función del valor medio prefijado por la hipótesis nula para la población, y de tres características muestrales: el tamaño de la muestra, la media y la cuasivarianza, podemos tener una visión de la discrepancia entre los datos y la hipótesis.
N-P fueron un paso más allá y, al introducir la hipótesis alternativa también lo hicieron con los conceptos de error Tipo I y error Tipo II. El primero se refiere a la probabilidad de rechazar la hipótesis nula siendo cierta (α) y el segundo a la probabilidad de aceptar la hipótesis nula siendo falsa (β) . Unido al error Tipo II está el concepto de potencia del contraste (POW), como la capacidad de detectar un efecto significativo: POW=1-β.
Así, los investigadores tienen que definir a priori el máximo error Tipo I a cometer, es decir, el umbral de significación α (usualmente 0.05) y después el tamaño de muestra necesario para minimizar β, o lo que es lo mismo, tener la potencia suficiente para detectar el efecto sustantivo.
Spanos distingue entre el concepto de p-valor de Fisher y el de error Tipo I de N-P; el primero de ello es definido post-data mientras que el segundo lo es pre-data. A nivel práctico, sin embargo, lo que los investigadores suelen hacer es calcular el p-valor y luego integrarlo en el marco de una decisión dicotómica (aceptar/rechazar) en base a los postulados de N-P.
El problema del tamaño de muestra grande
Algunas críticas al p-valor se han centrado en que cuando la muestra es muy grande el estadístico de contraste arrojará un valor significativo (p-valor muy pequeño) por lo que se rechazará la hipótesis nula incluso en casos donde la divergencia sea insignificante desde el punto de vista práctico. Pero como indica Spanos, no hay nada paradójico aquí, ya que es una buena característica matemática (consistencia) que el test haga bien su trabajo a medida que la muestra crece.
Lo que es una falacia es interpretar cualquier discrepancia de la hipótesis nula como una evidencia de la hipótesis alternativa, es decir, la falacia del rechazo. Así, en situaciones de alta potencia es más probable detectar un efecto significativo, por lo que el argumento de que cuanto más pequeño es el p-valor más evidencia hay en contra de la hipótesis nula es incorrecto, o al menos, ciertamente matizable.
La falacia de la aceptación, por contra, se produce cuando se acepta la hipótesis nula pero no se tiene la potencia necesaria para detectar un efecto sustantivo, lo que sucede habitualmente en muestras pequeñas y/o con mucha dispersión.
La severidad
El concepto de severidad tiene ciertas similitudes con el de potencia, pero no es igual. La severidad es una evaluación post-data que nos va a ayudar a evaluar si nuestra hipótesis pasa un el test (construído por el estadístico de contraste) con una determinada solvencia, independientemente de que la potencia sea baja. Para ello se plantea un valor de discrepancia (un tamaño de efecto) para ver si el test (en función de los datos) apoya severamente la hipótesis o no.
Formalmente una hipótesis (H0 o H1) pasa un test con los datos x0 si: (1) x0 concuerda con la hipótesis; y (2) con muy alta probabilidad el test habría producido un resultado menos acorde con la hipótesis que lo que lo hacen los datos x0, si la hipótesis fuera falsa. Este segundo punto, ciertamente, es algo complejo de entender sin ejemplos concretos, y en un futuro post lo explicaré con detenimiento.
De este modo, mediante la prueba de severidad se pueden realizar varios análisis con diferentes discrepancias para estudiar qué diferencia es sostenida por los datos, y es especialmente relevante para determinar la diferencia sustantiva (el tamaño de efecto) garantizada por los datos. Spanos, en este punto, es claro en su crítica a clasificar los tamaños de efecto de manera genérica en «pequeño», «medio» y «grande» sin tener en cuenta la información de cada estudio concreto. Particularmente, la prueba de severidad da información que va más allá de la mera decisión dicotómica (aceptar/rechazar), y de la arbitrariedad de establecer un umbral de corte para tal decisión.
Los intervalos de confianza
Spanos argumenta que los que defienden que los intervalos de confianza proveen más información que los tests y que evitan muchas de las debilidades de éstos están equivocados. Los intervalos de confianza y el p-valor son simplemente formas diferentes de resumir la misma información.
La principal diferencia entre un contraste de hipótesis y los intervalos de confianza es la distribución muestral del estadístico de contraste. En un contraste de hipótesis ese estadístico es realmente eso, un estadístico, mientras que en la computación de intervalos de confianza es una cantidad pivotal (no un test estadístico). Esto sifnifica que la evaluación no invoca un razonamiento hipotético sobre la media poblaciónal, sino factual (el valor que sale en la muestra independiente del valor real que tenga en la población).
Esta es la razón por la cual no se pueden establecer probabilidades para el intervalo de confianza observado. Como tantas veces hemos repetido en este blog, un intervalo de confianza al 95% significa que el 95% de las veces que se repita el experimento el intervalo va a contener al parámetro (independientemente del valor real que tenga el parámetro), lo que es muy distinto a pensar que la probabilidad de que el intervalo contenga al parámetro es del 95%. Como indica Spanos, no se puede distinguir entre valores más o menos probables dentro del intervalo de confianza.
Los intervalos de confianza también dependen del tamaño de la muestra, por lo que están sujetos exactamente a las mismas circunstancias que el p-valor. Spanos, sin embargo, propone emplear el rango de valores que cubre el intervalo de confianza para tomar muestras en diferentes análisis de severidad. De este modo, se comprobaría de manera efectiva si realmente los valores que cubre el intervalos están garantizados por los datos.
Críticas al AIC
En la parte final del artículo, Spanos critica la elección de modelos en base a un menor valor del Akaike Information Criteria (AIC). Recordemos que el AIC es una forma de ordenar modelos fundamentada en la verosimilitud de los datos y una penalización por el número de parámetros a estimar.
Sin embargo, esa medida de ajuste no es condición necesaria ni suficiente para la adecuación estadística, es decir, para garantizar que las asunciones sobre los datos son válidas. En otras palabras, modelos peor ajustados por el AIC (y por tanto no elegidos) pueden ser los válidos porque no están mal especificados. Así, el AIC puede ofrecer un dibujo erróneo de los modelos y perturbar la inferencia. Es la validación de las asunciones de un modelo la que debe guiar su elección, y no la comparación de diferentes modelos alternativos en función de su ajuste (teniendo en cuenta, además, que el AIC no es ningún test estadístico, sino un índice de ajuste incremental).
Comentarios
La visión de Spanos sobre cómo emplear lo mejor de las propuestas de Fisher y de N-P para no cometer falacias en la interpretación de los test estadísticos es, cuando menos, estimulante. Mediante el análisis de severidad ni siquiera hay que recurrir a los intervalos de confianza sobre el parámetro en cuestión o a los intervalos de confianza sobre el tamaño del efecto. Spanos toma los postuados de N-P, y propone mejorarlos con pruebas que confirmen o desmientan si los datos garantizan un tamaño de efecto determinado.
De este modo, para Spanos el uso del p-valor sigue siendo esencial en estadística, pero para ello vez los investigadores aplicados debemos conocer cómo se interpretan. Y este artículo ofrece una oportunidad para aprender a hacerlo.
Spanos, A. (2014). Recurring controversies about P values and confidence intervals revisited. Ecology, 95, 611-617