(#283). INTERPRETACIÓN FRECUENTISTA DE LA PROBABILIDAD; EL PAPEL DE LOS MODELOS

[REVISIÓN DE ARTÍCULO] En este artículo publicado en el libro online de Wiley: Wiley StatsRef: Statistics Reference Online, uno de los investigadores punteros en el ámbito de la filosofía de la estadística frecuentista en la actualidad – Aris Spanos – nos recuerda la importancia del modelo estadístico en la interpretación de la probabilidad.

Para los investigadores aplicados como yo, a veces nos es complicado entender la base matemática y filosófica de las herramientas que empleamos, pero siempre es una labor recomendable tratar de profundizar en ellas.

La aproximación de Fisher

La clave de la propuesta de Fisher es pre-especificar un modelo estadístico paramétrico que provea el contexto adecuado para asignar probabilidades a eventos relevantes asociados con datos. Para ello,  se requiere el establecimiento de unas asunciones probabilísticas sobre los datos.

Spanos recuerda el tratamiento axiomático de la probabilidad de Kolmogorov y su definición del espacio probabilístico . Básicamente, esto quiere decir que existe un conjunto  de todos los posibles resultados. Esos resultados pueden agruparse en subconjuntos de eventos A de interés, siendo esos eventos mutuamente excluyentes. El conjunto de todos esos subconjuntos es , que tiene la estructura matemática de un -álgebra. Esto significa que están definidos el conjunto vacío, los eventos complementarios , y la unión de esos eventos. En la práctica, podemos tomar , y definimos , es decir, es una función sobre F de tal manera que a cada evento se le asigna una probabilidad.

De este modo, se puede definir (en la práctica) una variable aleatoria X como una función del conjunto de todos los posibles resultados de en  , de forma que a cada evento se le asigna una probabilidad. Esto es, a cada evento se le asigna un número, y ese número tiene asignado una probabilidad.

Spanos ejemplifica de manera sencilla todo el planteamiento anterior para una variable de Bernouilli, donde   y donde

El modelo estadístico

Según Spanos, el papel crucial de la variable aleatoria es transformar el espacio abstracto de probabilidad en un modelo estadístico  definido sobre la recta real. Para ello es necesario asumir que el experimento se repite bajo condiciones idénticas por lo que los eventos observados son independientes. Esa repetición provee una secuencia de variables aleatorias independientes e idénticamente distribuidas (IID). Bajo esta visión, el modelo estadístico es una parametrización del proceso estocástico que rige la obtención de los resultados. El modelo de Bernuilli (Ber) comentado quedaría entonces:

Lo que nos dice esta ecuación es que el modelo estadístico permite reflejar el proceso estocástico a partir de unos parámetros (que en este caso son la media y la varianza de una variable dicotómica). En otras palabras, se puede interpretar que sobre una población (k se sucede N veces siendo ) podemos computar la probabilidad de ocurrencia de los eventos a través de la parametrización del proceso. Pero como no observamos casi nunca la población, sino una muestra , entonces consideramos esa muestra como una realización típica de ese proceso.

Spanos recuerda que, tal y como postulaba Kolmogorov, se debe distinguir entre aleatoriedad pura (ausencia de cualquier regularidad) y regularidad estocástica (donde existen regularidades, y que es el campo de la teoría de la probabilidad). En la probabilidad estocástica hay un mecanismo que produce las frecuencias observables. Ese mecanismo es hipotético y es, precisamente, el modelo propuesto.

La intepretación frecuentista se basa en la Ley de los Grandes Números (en sus versiones fuerte y débil, como apunta Spanos), por el cual a medida que la muestra crece se converge a la probabildad verdadera, es decir, cuando la muestra tiende a infinito entonces , lo que es llamado por el autor “the long-run metaphor”.

Las asunciones del modelo estadístico son testables con los datos empíricos, y es ahí donde reside una de las claves de la visión de Spanos sobre la aplicación de la estadística; hay que especificar el modelo y testar las asunciones antes de interpretarlo. El cumplimiento de esas asunciones apoyará la aseveración de que los datos son una realización típica del proceso subyacente. Sin embargo, esta adecuación estadística no tiene porqué ser “sustantiva” en el sentido en que es simplemente correlacional y no causal. Para el establecimiento de relaciones causales se deben añadir ciertas restricciones en los parámetros que son también testables.

Comentarios finales

Aris Spanos vuelve a incidir en la necesidad de un purismo metodológico para aplicar la estadística de manera correcta. La visión frecuentista, promovida por Fisher, se puede enmarcar en un proceso de modelización en el cual el investigador tiene herramientas para testar la propia idoneidad de su especificación.

De este modo, podríamos decir de manera coloquial, que cuando un investigador se enfrenta al problema de tratar de aprender de los datos, debe especificar un mecanismo hipotético de generación de esos datos con sus respectivas restricciones (asunciones). Esas asunciones son testables con los propios datos, y deben ser validadas antes de cualquier interpretación posterior. Finalmente, esa idoneidad estadística no significa idoneidad sustantiva, en el sentido de que el modelo real puede requerir de restricciones adicionales en términos de causalidad que, de nuevo, deben testarse.

En este último punto Spanos no entra a profundizar (tampoco era el objetivo del artículo), pero para discutir cómo testar esas restricciones añadidas del modelo sustantivo entraríamos en disquisiciones más complejas sobre causalidad.

Como comentario final, obsérvese la diferencia que existe entre los investigadores que se preocupan por intentar (con mayor o menor acierto) preocuparse por todo este proceso descrito al interpretar el p-valor, y aquellos que “le dan al botón” del programa estadístico y ven si está por encima o por debajo de 0.05.

 

LEE EL ARTÍCULO ORIGINAL AQUÍ:

Spanos, A. (2017). Frequentist Probability. Wiley StatsRef: Statistics Reference Online. 1–11

Todos los posts relacionados




(#265). DEFENDIENDO EL P-VALOR A TRAVÉS DE SU CORRECTA INTERPRETACIÓN

[REVISIÓN DE ARTÍCULO] Aris Spanos muestra su visión sobre la controversia acerca del uso del p-valor en este artículo publicado dentro de un especial de la revista Ecology. Dada la trayectoria y postulados de este investigador, es relevante mostrar un resumen de su contenido.

Fisher veía el p-valor como un indicador de inconsistencia entre los datos x0 y la hipótesis nula H0, donde el valor real de p indica la fuerza de la evidencia en contra de la hipótesis. Desde este punto de vista, la evaluación se realiza post-data, y es una medida del error posible a cometer.

Newman y Pearson (N-P) debatieron fuertemente con Fisher su propuesta, y replicaron con la introducción de una hipótesis alternativa H1, y el establecimiento de un umbral de corte para el p-valor (pre-data), lo que durante muchos años ha sido la forma mayoritaria de proceder de los investigadores aplicados.

Pero, según Spanos, ninguno de los dos postulados resuelve con diligencia una pregunta esencial: ¿Cúando los datos x0 proveen evidencia en favor o en contra de una hipótesis? Así, Spanos mostrará algunas limitaciones del p-valor y las ventajas de adoptar una visión de error-statistical, , respetando la base fundamental de la estadística de la propuesta de N-P.

La diferencia entre Fisher y N-P

Spanos ejemplifica su argumentario con la ilustración del caso más simple, donde la variable aleatoria Xt siguen una distribución NIID (normal, independiente e idénticamente distribuida) con media μ y desviación típica σ, donde se establece H0: μ=μ0 y H1: μ>μ0.

A través de un estadístico de contraste ζ(X) que sigue una distribución t-Student bajo H0 (dado que lo habitual es usar la cuasivarianza muestral en lugar de la varianza poblacional, que casi siempre es desconocida), se evalúa P(ζ(X)>ζ(x0):H0)=p(x0), que es la probabilidad de obtener un valor del test estadístico ζ(X) al menos tan extremo como el observado con los datos ζ(x0), asumiendo que la hipótesis nula es cierta. Esto es lo que nos dice un p-valor, ni más ni menos.

Por tanto, y dado que el estadístico de contraste es una función del valor medio prefijado por la hipótesis nula para la población, y de tres características muestrales: el tamaño de la muestra, la media y la cuasivarianza, podemos tener una visión de la discrepancia entre los datos y la hipótesis.

N-P fueron un paso más allá y, al introducir la hipótesis alternativa también lo hicieron con los conceptos de error Tipo I y error Tipo II. El primero se refiere a la probabilidad de rechazar la hipótesis nula siendo cierta (α) y el segundo a la probabilidad de aceptar la hipótesis nula siendo falsa (β) . Unido al error Tipo II está el concepto de potencia del contraste (POW), como la capacidad de detectar un efecto significativo: POW=1-β.

Así, los investigadores tienen que definir a priori el máximo error Tipo I a cometer, es decir, el umbral de significación α (usualmente 0.05) y después el tamaño de muestra necesario para minimizar β, o lo que es lo mismo, tener la potencia suficiente para detectar el efecto sustantivo.

Spanos distingue entre el concepto de p-valor de Fisher y el de error Tipo I de N-P; el primero de ello es definido post-data mientras que el segundo lo es pre-data. A nivel práctico, sin embargo, lo que los investigadores suelen hacer es calcular el p-valor y luego integrarlo en el marco de una decisión dicotómica (aceptar/rechazar) en base a los postulados de N-P.

El problema del tamaño de muestra grande

Algunas críticas al p-valor se han centrado en que cuando la muestra es muy grande el estadístico de contraste arrojará un valor significativo (p-valor muy pequeño) por lo que se rechazará la hipótesis nula incluso en casos donde la divergencia sea insignificante desde el punto de vista práctico. Pero como indica Spanos, no hay nada paradójico aquí, ya que es una buena característica matemática (consistencia) que el test haga bien su trabajo a medida que la muestra crece.

Lo que es una falacia es interpretar cualquier discrepancia de la hipótesis nula como una evidencia de la hipótesis alternativa, es decir, la falacia del rechazo. Así, en situaciones de alta potencia es más probable detectar un efecto significativo, por lo que el argumento de que cuanto más pequeño es el p-valor más evidencia hay en contra de la hipótesis nula es incorrecto, o al menos, ciertamente matizable.

La falacia de la aceptación, por contra, se produce cuando se acepta la hipótesis nula pero no se tiene la potencia necesaria para detectar un efecto sustantivo, lo que sucede habitualmente en muestras pequeñas y/o con mucha dispersión.

La severidad

El concepto de severidad tiene ciertas similitudes con el de potencia, pero no es igual. La severidad es una evaluación post-data que nos va a ayudar a evaluar si nuestra hipótesis pasa un el test (construído por el estadístico de contraste) con una determinada solvencia, independientemente de que la potencia sea baja. Para ello se plantea un valor de discrepancia (un tamaño de efecto) para ver si el test (en función de los datos) apoya severamente la hipótesis o no.

Formalmente una hipótesis (H0 o H1) pasa un test con los datos x0 si: (1) x0 concuerda con la hipótesis; y (2) con muy alta probabilidad el test habría producido un resultado menos acorde con la hipótesis que lo que lo hacen los datos x0, si la hipótesis fuera falsa. Este segundo punto, ciertamente, es algo complejo de entender sin ejemplos concretos, y en un futuro post lo explicaré con detenimiento.

De este modo, mediante la prueba de severidad se pueden realizar varios análisis con diferentes discrepancias para estudiar qué diferencia es sostenida por los datos, y es especialmente relevante para determinar la diferencia sustantiva (el tamaño de efecto) garantizada por los datos. Spanos, en este punto, es claro en su crítica a clasificar los tamaños de efecto de manera genérica en “pequeño”, “medio” y “grande” sin tener en cuenta la información de cada estudio concreto. Particularmente, la prueba de severidad da información que va más allá de la mera decisión dicotómica (aceptar/rechazar), y de la arbitrariedad de establecer un umbral de corte para tal decisión.

Los intervalos de confianza

Spanos argumenta que los que defienden que los intervalos de confianza proveen más información que los tests y que evitan muchas de las debilidades de éstos están equivocados. Los intervalos de confianza y el p-valor son simplemente formas diferentes de resumir la misma información.

La principal diferencia entre un contraste de hipótesis y los intervalos de confianza es la distribución muestral del estadístico de contraste. En un contraste de hipótesis ese estadístico es realmente eso, un estadístico, mientras que en la computación de intervalos de confianza es una cantidad pivotal (no un test estadístico). Esto sifnifica que la evaluación no invoca un razonamiento hipotético sobre la media poblaciónal, sino factual (el valor que sale en la muestra independiente del valor real que tenga en la población).

Esta es la razón por la cual no se pueden establecer probabilidades para el intervalo de confianza observado. Como tantas veces hemos repetido en este blog, un intervalo de confianza al 95% significa que el 95% de las veces que se repita el experimento el intervalo va a contener al parámetro (independientemente del valor real que tenga el parámetro), lo que es muy distinto a pensar que la probabilidad de que el intervalo contenga al parámetro es del 95%. Como indica Spanos, no se puede distinguir entre valores más o menos probables dentro del intervalo de confianza.

Los intervalos de confianza también dependen del tamaño de la muestra, por lo que están sujetos exactamente a las mismas circunstancias que el p-valor. Spanos, sin embargo, propone emplear el rango de valores que cubre el intervalo de confianza para tomar muestras en diferentes análisis de severidad. De este modo, se comprobaría de manera efectiva si realmente los valores que cubre el intervalos están garantizados por los datos.

Críticas al AIC

En la parte final del artículo, Spanos critica la elección de modelos en base a un menor valor del Akaike Information Criteria (AIC). Recordemos que el AIC es una forma de ordenar modelos fundamentada en la verosimilitud de los datos y una penalización por el número de parámetros a estimar.

Sin embargo, esa medida de ajuste no es condición necesaria ni suficiente para la adecuación estadística, es decir, para garantizar que las asunciones sobre los datos son válidas. En otras palabras, modelos peor ajustados por el AIC (y por tanto no elegidos) pueden ser los válidos porque no están mal especificados. Así, el AIC puede ofrecer un dibujo erróneo de los modelos y perturbar la inferencia. Es la validación de las asunciones de un modelo la que debe guiar su elección, y no la comparación de diferentes modelos alternativos en función de su ajuste (teniendo en cuenta, además, que el AIC no es ningún test estadístico, sino un índice de ajuste incremental).

Comentarios

La visión de Spanos sobre cómo emplear lo mejor de las propuestas de Fisher y de N-P para no cometer falacias en la interpretación de los test estadísticos es, cuando menos, estimulante. Mediante el análisis de severidad ni siquiera hay que recurrir a los intervalos de confianza sobre el parámetro en cuestión o a los intervalos de confianza sobre el tamaño del efecto. Spanos toma los postuados de N-P, y propone mejorarlos con pruebas que confirmen o desmientan si los datos garantizan un tamaño de efecto determinado.

De este modo, para Spanos el uso del p-valor sigue siendo esencial en estadística, pero para ello vez los investigadores aplicados debemos conocer cómo se interpretan. Y este artículo ofrece una oportunidad para aprender a hacerlo.

LEE EL ARTÍCULO ORIGINAL AQUÍ:

Spanos, A. (2014). Recurring controversies about P values and confidence intervals revisited. Ecology, 95, 611-617

Indicadores de calidad de la revista*

 

Impact Factor (2016)

Cuartil

Categoría

Thomson-Reuters (JCR)

4.809

Q1

 ECOLOGY

Scimago (SJR)

3.26

Q1

ECOLOGY, EVOLUTION, BEHAVIOR AND SYSTEMATICS

* Es simplemente un indicador aproximado para valorar la calidad de la publicación

Todos los posts relacionados