(#427) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIb)

[MONOTEMA] Expondremos aquí la segunda parte del segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Tras explicar la estructura básica de un modelo estadístico simple, continuamos avanzando en el desarrollo de conceptos fundamentales.

Muestra aleatoria

Una  muestra aleatoria asume dos características fundamentales: independencia e idéntica distribución.

Las variables aleatorias son independientes si la probabilidad de ocurrencia de cualquiera de ellas no influye y no ha sido influida por la ocurrencia de cualquier otra del conjunto.

La idéntica distribución se da cuando sus funciones de densidad son iguales, es decir:

Spanos va muy despacio introduciendo todos estos conceptos, que posteriormente serán desarrollados con más detalle.  Por eso, nosotros vamos a ir también de la mano del autor, comentando ejemplos sencillos.

Cojamos de nuevo a Kemba Walker y sus puntos por minutos en los 82 partidos jugados en 2018/19, y vamos a generar 4 muestras aleatorias de 60 observaciones cada una. Para ello hemos empleado el generador de números aleatorios de XLStat, que se puede integrar en Excel. Una vez que se han generado las 4 muestras, las llevamos a Maxima para su gestión gráfica:

kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker1:datatranspose[1];
histogram (
walker1,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker2:datatranspose[2];
histogram (
walker2,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker3:datatranspose[3];
histogram (
walker3,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt "));
datatranspose:transpose(data);
walker4:datatranspose[4];
histogram (
walker4,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Como se puede apreciar, las distribuciones son prácticamente idénticas. Pero, ¿qué sucedería ahora si escogemos una muestra no aleatoria? Lo comprobamos a continuación seleccionando los primeros y últimos 60 partidos.

Y aquí podemos ver dos fenómenos curiosos. En primer lugar, que la selección no aleatoria de los primero 60 partidos se distribuye de forma similar a las muestras aleatorias anteriores. Y en segundo lugar, que la selección no aleatoria de los últimos 60 partidos refleja un cambio ostensible en la forma de la distribución de datos.

Las consecuencias que tienen las dos últimas figuras las iremos comentando más adelante. Pero ya advertimos un corolario preliminar: Una muestra no aleatoria puede distribuirse igual que una aleatoria o no.

Sin embargo, además, hemos de ser conscientes de que muestras aleatorias de tamaños diferentes pueden diferir en su apariencia. Por ejemplo, si ahora seleccionamos 2 muestras aleatorias de 30 observaciones, obtenemos lo siguiente:

Esa apariencia es diferente de la mostrada cuando se escogían 60 observaciones.

Hay que tener en cuenta de que estamos hablando de distribuciones muestrales, y que en la definición de Spanos no se pretende ir más allá de los conceptos de independencia e idéntica distribución de las variables aleatorias.

Y es aquí donde quizá aparezca la confusión, porque Spanos en la página 33 habla sobre una única variable aleatoria X, mientras que en la página 38 especifica un conjunto de variables aleatorias. En realidad, en el ejemplo del rendimiento del jugador de baloncesto, los puntos por minuto es una única variable aleatoria que se distribuye de una determinada forma. Una muestra aleatoria de esa varibale requiere que todas las observaciones tengan la misma probabilidad de ser seleccionadas. Las diferentes muestras aleatorias que se puedan recoger deberán ser también independientes, y esas muestras serán a su vez variables aleatorias que idealmente se distribuirán de forma equivalente.

Sí, quizá estamos adelantando conceptos, pero es necesario hacerlo para manejarnos en esta complejidad técnica.

Seguiremos con la tercera parte de este segundo capítulo en posteriores posts.

Todos los posts relacionados




(#426) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIa)

[MONOTEMA] Continuamos con el segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Debido a su extensión, lo dividiremos en partes, en aras de hacer más sencillo el estudio paso a paso.

Capítulo II. Teoría de la probabilidad: Un marco para modelar

La teoría de la probabilidad provee la base fundacional y el marco de referencia para la modelización de datos y la inferencia estadística.

La inferencia estadística es eminentemente inductiva, ya que establece conclusiones de los observables más allá de estos. De este modo, los datos observados son vistos como una realización particular de un mecanismo estocástico que se ha especificado por el modelo estadístico postulado a priori.

Estructura básica de un modelo estadístico simple

Un modelo estadístico tiene 2 componentes:

(1) Modelo de probabilidad:

(2) Modelo de muestreo:  es una muestra aleatoria

Lo que nos dicen estas dos componentes es que el modelo de probabilidad especifica una familia de densidades  definida sobre el rango de valores de la variable aleatoria ; una función de densidad para cada valor del parámetro , que tiene un rango de valores determinado por .

Chebyshev definió de forma simple una variable aleatoria como una variable real que puede asumir diferentes valores con diferentes probabilidades.

Una variable aleatoria es una función de un conjunto de resultados a la recta real, asignando números a esos resultados. Por ejemplo, con 2 dados:

Por tanto, lo que tenemos aquí es una función que relaciona a un conjunto posible de resultados con números de la recta real. En el primer caso, esos números coinciden con la suma de los números posibles al lanzar los dados, y en el segundo, hacer referencia a cuando el resultado es par o impar. En ambos casos, tenemos variables aleatorias. Es obvio deducir que , es la recta real. Y también es sencillo estipular que

Cualquiera que sea la variable aleatoria tiene que cumplir lo siguiente:

Es decir, que la probabilidad de un resultado particular siempre es cero o positiva, y que la suma de todas las probabilidades del conjunto de resultados de la recta real es 1.

Cuando esos números de la recta real son un conjunto infinito, la distribución es continua en lugar de discreta, y entonces:

¿Cómo definiriamos una variable aleatoria X que represente el lanzamiento de un tiro libre en baloncesto? Podría ser de la siguiente forma:

Aquí vemos que el conjunto de resultados posible es , que representan un fallo y un acierto, respectivamente. Ese conjunto se “traslada” a la recta real en forma de dos números, 0 y 1, que representan también el fallo y el acierto. Y a cada uno de esos números se le asigna una probabilidad.

Por ejemplo, el jugador de los Mavs, Luka Doncic, ha tenido un 71.3% de acierto en los tiros libres en la temporada 2018/19. Podríamos entonces estipular que:

En Maxima lo podríamos representar así:

f_0:0.287;
f_1: 0.713;
plot2d([discrete,[[0,f_0],[1,f_1]]], [x,0,1],[y,0,1],
[style, points, points],[color, red, green],
[xlabel, "Resultado: fallo (0), acierto (1)"],
[ylabel, "Función de densidad"],
[legend, false]);

La función de densidad que podríamos definir para el caso anterior sería:

que es la función de densidad de Bernouilli.

Fijémonos en lo que hemos hecho: hemos construido una función de densidad que nos dice en cada momento, es decir, para cada valor de x, la probabilidad de ese valor. Ese valor de probabilidad está en función de un parámetro desconocido, cuyo rango de valores coincide con el rango de valores de probabilidad, pero no siempre tiene que ser así, como veremos más adelante.

Como bien indica Spanos, la repetición de n ensayos de Bernouilli nos da la distribución binomial cuya función de densidad es:

donde:

Así, podríamos calcular, por ejemplo, la probabilidad de que Luka Doncic anotara los 3 tiros libres que lanza cuando le hacen una falta personal en un triple:

Pero aquí ya hemos cambiado el escenario, ya no tenemos la misma variable aleatoria que antes, sino la siguiente:

El conjunto de resultados es 27 porque son las variaciones con repetición de 3 elementos tomados de 3 en tres.

Por tanto:

Es decir, la probabilidad de que Luka Doncic anote los 3 lanzamientos libres es del 36.2%.

Obviamente, todos estos análisis los hemos realizado suponiendo independencia en los tiros libres, algo que la investigación en baloncesto nos dice que es cuestionable.

Podemos escribir una función en Maxima para representar esos valores de la distribución binomial, que recordemos que es discreta, pero hemos añadido una curva para que se aprecie la tendencia.

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
funcion(x):=tiroslibres(3,x,0.713);
ceroaciertos:funcion(0);
unacierto:funcion(1);
dosaciertos:funcion(2);
tresaciertos:funcion(3);
plot2d([funcion(x),[discrete,[[0,ceroaciertos],
[1,unacierto],[2,dosaciertos],
[3,tresaciertos]]]], [x,0,3],[y,0,1],
[style, lines, points],[color, green, red],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, false]);

Como se puede ver, lo más probable es que Doncic anote 2 de los 3 tiros libres. Si incrementamos el número de ensayos, la distribución se aproxima a una Normal, algo que también veremos más adelante, donde el máximo de probabilidad coincide con el valor del parámetro .

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
funcion(x):=tiroslibres(100,x,0.713);
setentayunaciertos:funcion(71);
plot2d([funcion(x),[discrete,[
[71,setentayunaciertos]]]], [x,0,100],[y,0,0.1],
[style, lines, points],[color, green, red],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, false]);

Podemos ahora comparar esas curvas de probabilidad entre diferentes jugadores, que tienen habilidades dispares. El porcentaje de Doncic es discreto para un jugador de ese nivel, el de Anthony Davis es bueno (79.4%) y el de James Harden es muy bueno (87.9%).

A la hora de encarar una serie de 3 tiros libres:

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
n:3;
Doncic(x):=tiroslibres(n,x,0.713);
Davis(x):=tiroslibres(n,x,0.794);
Harden(x):=tiroslibres(n,x,0.879);
plot2d([Doncic(x),Davis(x),Harden(x)], [x,0,n],[y,0,1],
[style, lines,lines, lines],[color, green, blue, orange],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, "Doncic", "Davis", "Harden"]);

Tanto Davis como Harden tienen más probabilidad de encestar los 3 que de encestar 2, no así, como hemos dicho, Doncic.

Y si miramos ahora a una serie de 100 tiros libres, se puede apreciar mejor las curvas de probabilidad, que reflejan la habilidad de estos jugadores.

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)fi^x(1-fi)^(n-x);
n:100;
Doncic(x):=tiroslibres(n,x,0.713);
Davis(x):=tiroslibres(n,x,0.794);
Harden(x):=tiroslibres(n,x,0.879);
plot2d([Doncic(x),Davis(x),Harden(x)], [x,0,n],[y,0,0.15],
[style, lines,lines, lines],[color, green, blue, orange],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, "Doncic", "Davis", "Harden"]);

Continuaremos con la segunda parte de este capítulo II en próximos posts.

Todos los posts relacionados




(#424) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (I)

[MONOTEMA] Durante los próximos meses vamos a ir comentando algunos de los puntos más destacados de una obra extraordinaria: Probability Theory and Statistical Inference, de Aris Spanos, un libro que debería ser de obligada lectura para todos los estudiantes e investigadores en ciencias.

Lo haremos con el máximo de los respetos, y con el reconocimiento de que la interpretación aquí mostrada no hará justifica al excelso contenido del libro. Sin embargo, la intención es que ayude a estudiantes a introducirse en el mundo de la investigación, así como diseminar los postulados de este gran investigador.

La idea es ir realizando un pequeño post por capítulo, intentando mostrar algunos ejemplos llevados a campos relacionados con mi actividad investigadora.

Capítulo I. Una introducción a la modelización empírica

Spanos define la modelización empírica como una descripción parsimoniosa de fenómenos estocásticos observables, empleando modelos estadísticos.

Un modelo estadístico pretende capturar la información estadística sistemática. Por tanto, es importante ya darnos cuenta que modelizar implica proponer una forma de plantear relaciones entre variables que expliquen cómo se han generado los datos, donde el interés reside en el componente sistemático, es decir, en aquello que está fuera de la aleatoriedad.

Los modelos empíricos envuelven un amplio espectro de procedimientos inter relacionados:

a) Especificación: Elección del modelo estadístico.

b) Estimación: Estimación de los parámetros del modelo.

c) Test de mala especificación: Evaluación de la validez de las asunciones probabilísticas postuladas en el modelo.

d) Re-especificación: Elección alternativa de otro modelo estadístico.

Como muy bien comenta el autor, estas facetas distinguen a los datos observacionales de los experimentales, donde en este último caso el principal objetivo es la estimación, siendo las facetas a) y d) constitutivas del diseño experimental, y donde c) juega un papel más secundario.

Algunas definiciones importantes:

  • Fenómeno estocástico: Aquel en que los datos observados exhiben patrones de regularidad inciertos (emplea la palabra “chance”).
  • “Chance”: La incertidumbre inherente a la ocurrencia de un determinado resultado.
  • Regularidad: Presencia de orden relativo a la ocurrencia de muchos de esos resultados. Es diferente al concepto de aleatoriedad.

Spanos emplea el ejemplo de lanzar dos dados, con el fin de tener una primeración noción intuitiva de conceptos fundamentales.

Vamos a emplear Maxima para dibujar un histograma de este ejemplo:

numeros_2dados:[2,  3,  4,  5,  6,  7,  
3, 4, 5, 6, 7, 8, 4, 5, 6, 7,
8, 9, 5, 6, 7, 8, 9, 10, 6, 7,
8, 9, 10, 11, 7, 8, 9, 10, 11, 12]$
histogram (
numeros_2dados,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Y ahora de nuevo usamos Maxima para dibujar los resultados de lanzar 2 dados 100 veces, en un gráfico que Spanos denomina “t-plot“:

resultados: makelist(random(11)+2,100);
plot2d([[discrete, resultados],
[discrete,resultados]],
[x,0,100],[y,2,12],[style, points, lines],
[color, red, green],[xlabel, "Número de lanzamiento"],
[ylabel, "Suma de los 2 dados"], [legend, false]);

He aquí los 3 conceptos que debemos comprender a la perfección:

[1] Distribución: El histograma desprende una distribución determinada de los datos empíricos, en este caso con mayor concentración en el centro y menos en los extremos.

[2] Independencia: El resultado de un lanzamiento no influye en el siguiente, tal y como muestra el t-plot.

[3] Homogeneidad: Las probabilidades asociadas con los diferentes resultados permanecen idénticas para todos los ensayos realizados.

Veamos un ejemplo práctico con datos reales. Cojamos los 82 partidos jugados por Kemba Walker en la temporada regular de la NBA 2018/19, y realicemos los mismos gráficos:

data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker:datatranspose;
histogram (
walker,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

plot2d([[discrete,datatranspose[1]], 
[discrete,datatranspose[1]]], [x,0,82],[y,0,1.5],
[style, points, lines],[color, red, green],
[xlabel, "Puntos/minuto"],[ylabel, "Número de partido jugado"],
[legend, false]);

Aquí tenemos ya un poco más de dificultad para interpretar los gráficos, aunque disponemos de los 3 mismos conceptos bien representados:

[1] Distribución: Claramente hay una distribución centrada en los valores medios, aunque no con una apariencia tan “Normal” como en un fenómeno aleatorio:

[2] Independencia: No está tan claro que hay total independencia, parece que puede haber la existencia de rachas, de algún componente sistemático que afecte el rendimiento.

[3] Homogeneidad: Tampoco es diáfano que las probabilidades asociadas a los diferentes resultados se mantengan constantes.

Esto es una mera ilustración de que, para cada conjunto de datos que tengamos, necesitamos estudiar detenidamente varios aspectos de los mismos que conformarán nuestras asunciones probabilísticas. Los gráficos son una gran ayuda, pero también habremos de ayudarnos de test que nos asistan cuando, como en el caso de los datos de Kemba Walker, no lo tengamos tan claro.

El siguiente paso es trasladar los patrones de regularidad con incertidumbre en información estadística con un componente sistemático. Para ello, prestemos atención a la siguiente definición:

Un modelo estadístico es un conjunto de asunciones probabilísticas compatibles que provienen de tres categorías: [D] distribución, [M] dependencia, [H] heterogeneidad.

Obviamente, coinciden con las 3 facetas con las que intepretábamos los datos anteriores.

Spanos incide en que la modelización empírica no trata sobre elegir óptimos estimadores, sino sobre escoger modelos estadísticos adecuados. Así, distingue entre la información estadística y la teoría que hay detrás del modelo. De esta forma, la teoría de la probabilidad funciona como un lenguaje neutral independiente de la teoría económica, psicológica, etc., que hay detrás del modelo. La validez del modelo descansa primeramente sobre la validez de las asunciones probabilísticas.

Por ello, este proceso de análisis es deductivo-inductivo, en el sentido en que el razonamiento toma la forma de modus ponens:

si p, entonces q

Si ciertas premsas son asumidas, ciertas conclusiones necesariamente se obtienen. Si las asunciones probabilísticas no se cumplen, se interpreta como que hay un componente sistemático añadido que hay que tener en cuenta, por lo que hay que re-especificar el modelo.

De nuevo enfatiza la distinción entre un modelo estadístico y un modelo teórico; el modelo estadístico es un testigo sin prejuicios acerca de la validez de las asunciones, sobre cuyo testimonio se evalúa la idoneidad empírica del modelo teórico. Así, ninguna teoría, por sosfisticada que sea, puede compensar un modelo estadístico mal especificado.

Spanos introduce la siguiente notación:

  • Datos transversales:

donde k, representa individuos, empresas, etc.

  • Datos longitudinales:

donde t es el tiempo.

  • Datos de panel:

Es importante señalar que los datos transversales no tienen un orden natural temporal, pero sí que lo pueden tener a nivel espacial o de cualquier otra dimensión:

Para mostar esto gráficamente, podemos emplear los puntos obtenidos por los jugadores de los Warriors en el segundo partido de la final de la NBA 2019.

kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
plot2d([[discrete,datatranspose[1]],
[discrete,datatranspose[1]],
[discrete,datatranspose[2]],
[discrete,datatranspose[2]]],
[x,1,12],[y,0,30],
[style, points, lines, points, lines],
[color, red, green, blue, orange],
[xlabel, "Jugador"],[ylabel, "Puntos"],
[legend, false]);

Los puntos rojos y línea verde representan los datos ordenados alfabéticamente, pero los datos con puntos azules y línea naranja lo hacen en función creciente de los minutos jugados. Por tanto, aunque estos datos sean claramente transversales porque se han obtenido como una foto instantánea al terminar el partido, existe un ordenamiento en (al menos) una dimensión.

Seguiremos próximamente con el Capítulo II.

Todos los posts relacionados




(#420). LA PARADOJA DE CHEVALIER DE MERE Y LOS ESTUDIANTES DE MARKETING

[MONOTEMA] Uno de los objetivos fundamentales de mi labor como profesor de marketing es hacer ver a los estudiantes que necesitan una formación científica muy alta para entender mejor los fenómenos sociales a los que se enfrentan. Por ello, hacemos énfasis en la importancia de las matemáticas, la lógica y la heurística para la toma de decisiones, pero con especial interés en estimular el pensamiento y la formación en estadística.

La paradoja de Chevalier de Mere es una buena forma de mostrar cómo los razonamientos aparentemente lógicos y sencillos pueden ser erróneos, con lo que se necesita de un cierto dominio de herramientas matemáticas para llegar al resultado correcto.

La paradoja

Aris Spanos, uno de los grandes maestros en econometría de nuestros días, en su libro Probability Theory and Statistical Inference, la describe de la siguiente forma:

En el siglo XVII, Pascal envió una carta a Fermat en relación a un problema que le había planteado un noble (y experto jugador) llamado Chevalier de Mere.

De Mere observó la siguiente regularidad derivada de los datos empíricos:

  • La probabiliad de obtener al menos un 6 en 4 lanzamientos de un dado es mayor de 0.5
  • La probabilidad de obtener al menos un 6 doble (un 12) en 24 lanzamientos de dos datos es menor que 0.5

De Mere se preguntaba cómo eso era posible si, siguiendo un razonamiento aparentemente lógico, ambas probabilidades debían ser iguales, es decir, conseguir un 6 sobre 4 lanzamientos de un dado debería ser lo mismo que conseguir un doble 6 en 24 lanzamientos de 2 dados, ya que 4/6 es igual a 24/36.

La solución

Aris Spanos, sin embargo, argumenta que no existe tal paradoja, porque cuando uno analiza los datos con suficiente rigor, las probabilidades difieren.

  • La probabilidad de obtener un doble 6 es:

  • La probabilidad de obtener un doble 6 en n lanzamientos es:

 

  • La probabilidad de no obtener un doble 6 en n lanzamientos es:

 

  • La probabilidad de obtener al menos un doble 6 en n lanzamientos es: 
  • Para  

 

En el caso de un dado:

  • La probabilidad de obtener un  6 es:

 

  • La probabilidad de obtener un 6 en m lanzamientos es: 

  • La probabilidad de no obtener un  6 en m lanzamientos es:

 

  • La probabilidad de obtener al menos un 6 en m lanzamientos es: 
  • Para 

 

Por tanto, el resultado empírico de de Mere era correcto, pero su razonamiento lógico fallaba.

Una explicación más clara

Podemos obtener una explicación más clara sobre la solución del problema si consultamos el (recomendable) artículo de  Basulto y Camúñez (2007).

No obstante, podemos simplemente proponer un razonamiento que nos lleve a concluir que ambas probabilidades son diferentes.

Podemos reordenar las ecuaciones anteriores de la siguiente forma:

Si llamamos:

Entonces:

Tomando logaritmos neperianos a ambos lados:

Si ahora suponemos que , es decir que ambas probabilidades son iguales, entonces:

De este modo:

Así, la única manera en que las probabilidades pueden ser iguales es cuando se cumple la relación anterior, es decir, que la razón del número de ensayos sea igual a la inversa de la razón de los logaritmos neperianos de las probabiliades de no obtener el número deseado.

Para el caso del ejemplo de Spanos:

lo que es, obviamente, imposible, y por tanto ambas probabilidades no pueden ser iguales.

Para que ambas fueran iguales, entonces para el caso de dos dados la probabilidad de no obtener un doble 6 debería ser 34.926/36 en lugar de 35/36.

También se puede ver de otro modo, y es que si los ensayos son los mismos, por ejemplo 4, entonces:

que obviamente no es posible.

Un gráfico que puede ayudar a comprender lo que está sucediendo es el que relaciona la probabilidad de no obtener el número deseado cuando se lanzan k dados:

Como se aprecia, el incremento de probabilidad es no lineal (en realidad la figura debería ser dibujada con puntos discretos para k=1, k=2, etc, pero se ha dibujado contínua para que se aprecie mejor la no linealidad).

Conclusión

La paradoja de de Mere no es en realidad una paradoja, sino una muestra de que razonamientos aparentemente sencillos y lógicos no dan el resultado correcto. Para llegar a resolver este tipo de problemas, necesitamos herramientas matemáticas que nos ayuden a no equivocarnos (o a hacerlo lo menos posible).

Los estudiantes de marketing deben apresurarse a interesarse por este sistema de pensamiento para tomar decisiones, sobre todo cuando han de analizar datos empíricos.

Todos los posts relacionados




(#283). INTERPRETACIÓN FRECUENTISTA DE LA PROBABILIDAD; EL PAPEL DE LOS MODELOS

[REVISIÓN DE ARTÍCULO] En este artículo publicado en el libro online de Wiley: Wiley StatsRef: Statistics Reference Online, uno de los investigadores punteros en el ámbito de la filosofía de la estadística frecuentista en la actualidad – Aris Spanos – nos recuerda la importancia del modelo estadístico en la interpretación de la probabilidad.

Para los investigadores aplicados como yo, a veces nos es complicado entender la base matemática y filosófica de las herramientas que empleamos, pero siempre es una labor recomendable tratar de profundizar en ellas.

La aproximación de Fisher

La clave de la propuesta de Fisher es pre-especificar un modelo estadístico paramétrico que provea el contexto adecuado para asignar probabilidades a eventos relevantes asociados con datos. Para ello,  se requiere el establecimiento de unas asunciones probabilísticas sobre los datos.

Spanos recuerda el tratamiento axiomático de la probabilidad de Kolmogorov y su definición del espacio probabilístico . Básicamente, esto quiere decir que existe un conjunto  de todos los posibles resultados. Esos resultados pueden agruparse en subconjuntos de eventos A de interés, siendo esos eventos mutuamente excluyentes. El conjunto de todos esos subconjuntos es , que tiene la estructura matemática de un -álgebra. Esto significa que están definidos el conjunto vacío, los eventos complementarios , y la unión de esos eventos. En la práctica, podemos tomar , y definimos , es decir, es una función sobre F de tal manera que a cada evento se le asigna una probabilidad.

De este modo, se puede definir (en la práctica) una variable aleatoria X como una función del conjunto de todos los posibles resultados de en  , de forma que a cada evento se le asigna una probabilidad. Esto es, a cada evento se le asigna un número, y ese número tiene asignado una probabilidad.

Spanos ejemplifica de manera sencilla todo el planteamiento anterior para una variable de Bernouilli, donde   y donde

El modelo estadístico

Según Spanos, el papel crucial de la variable aleatoria es transformar el espacio abstracto de probabilidad en un modelo estadístico  definido sobre la recta real. Para ello es necesario asumir que el experimento se repite bajo condiciones idénticas por lo que los eventos observados son independientes. Esa repetición provee una secuencia de variables aleatorias independientes e idénticamente distribuidas (IID). Bajo esta visión, el modelo estadístico es una parametrización del proceso estocástico que rige la obtención de los resultados. El modelo de Bernuilli (Ber) comentado quedaría entonces:

Lo que nos dice esta ecuación es que el modelo estadístico permite reflejar el proceso estocástico a partir de unos parámetros (que en este caso son la media y la varianza de una variable dicotómica). En otras palabras, se puede interpretar que sobre una población (k se sucede N veces siendo ) podemos computar la probabilidad de ocurrencia de los eventos a través de la parametrización del proceso. Pero como no observamos casi nunca la población, sino una muestra , entonces consideramos esa muestra como una realización típica de ese proceso.

Spanos recuerda que, tal y como postulaba Kolmogorov, se debe distinguir entre aleatoriedad pura (ausencia de cualquier regularidad) y regularidad estocástica (donde existen regularidades, y que es el campo de la teoría de la probabilidad). En la probabilidad estocástica hay un mecanismo que produce las frecuencias observables. Ese mecanismo es hipotético y es, precisamente, el modelo propuesto.

La intepretación frecuentista se basa en la Ley de los Grandes Números (en sus versiones fuerte y débil, como apunta Spanos), por el cual a medida que la muestra crece se converge a la probabildad verdadera, es decir, cuando la muestra tiende a infinito entonces , lo que es llamado por el autor “the long-run metaphor”.

Las asunciones del modelo estadístico son testables con los datos empíricos, y es ahí donde reside una de las claves de la visión de Spanos sobre la aplicación de la estadística; hay que especificar el modelo y testar las asunciones antes de interpretarlo. El cumplimiento de esas asunciones apoyará la aseveración de que los datos son una realización típica del proceso subyacente. Sin embargo, esta adecuación estadística no tiene porqué ser “sustantiva” en el sentido en que es simplemente correlacional y no causal. Para el establecimiento de relaciones causales se deben añadir ciertas restricciones en los parámetros que son también testables.

Comentarios finales

Aris Spanos vuelve a incidir en la necesidad de un purismo metodológico para aplicar la estadística de manera correcta. La visión frecuentista, promovida por Fisher, se puede enmarcar en un proceso de modelización en el cual el investigador tiene herramientas para testar la propia idoneidad de su especificación.

De este modo, podríamos decir de manera coloquial, que cuando un investigador se enfrenta al problema de tratar de aprender de los datos, debe especificar un mecanismo hipotético de generación de esos datos con sus respectivas restricciones (asunciones). Esas asunciones son testables con los propios datos, y deben ser validadas antes de cualquier interpretación posterior. Finalmente, esa idoneidad estadística no significa idoneidad sustantiva, en el sentido de que el modelo real puede requerir de restricciones adicionales en términos de causalidad que, de nuevo, deben testarse.

En este último punto Spanos no entra a profundizar (tampoco era el objetivo del artículo), pero para discutir cómo testar esas restricciones añadidas del modelo sustantivo entraríamos en disquisiciones más complejas sobre causalidad.

Como comentario final, obsérvese la diferencia que existe entre los investigadores que se preocupan por intentar (con mayor o menor acierto) preocuparse por todo este proceso descrito al interpretar el p-valor, y aquellos que “le dan al botón” del programa estadístico y ven si está por encima o por debajo de 0.05.

 

LEE EL ARTÍCULO ORIGINAL AQUÍ:

Spanos, A. (2017). Frequentist Probability. Wiley StatsRef: Statistics Reference Online. 1–11

Todos los posts relacionados