(#438).TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIe)

[MONOTEMA]  Avanzamos con el quinto apartado del tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos.

Parámetros y momentos

Además del histograma de la distribución de datos observados, también disponemos de ciertos números que caracterizan la distribución como la media o la varianza. Esos valores numéricos están relacionados con los momentos de la distribución, que son esperanzas matemáticas de ciertas funciones de la variable aleatoria , genéricamente denotadas por .

Si escogemos diferentes funciones  obtendremos diferentes momentos de la distribución. Por ejemplo:

Media 

Para variables continuas:

Para variables discretas:

Varianza

Una forma conveniente de calcular los momentos de una distribución es a través de la función generatriz de momentos (mgf), donde

Para variables aleatorias discretas las integrales se vuelven sumatorios.

Por ejemplo, para una variable aleatoria X que sigue una distribución de Poisson:

Dado que: 

Entonces:

A partir de los momentos de la distribución se puede estudiar la asimetría y el apuntamiento. De este modo, podemos caracterizar la forma de la distribución a partir de los momentos.

Todos los posts relacionados




(#437). TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIId)

[MONOTEMA] En esta cuarta entrega del tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos, seguimos profundizando en la relación entre espacio de probabilidad y modelo de probabilidad.

Cuando las probabilidades son funciones conocidas de ciertos parámetros desconocidos , entonces podemos transformar el espacio probabilístico en un modelo de probabilidad definido por:

donde  es una colección de funciones de densidad que dependen de un conjunto de parámetros  en el espacio paramétrico .

Podríamos usar también la función de distribución:

Pongamos un ejemplo usando la distribución Beta como modelo de probabilidad:

 

Podemos analizar el porcentaje de acierto en los tiros libres de los jugadores NBA hasta 2015 (el acumulado en sus respectivas carreras), para aquellos que hubieran lanzado al menos 30 tiros libres.

El histograma de la distribución es el siguiente:

data:read_list(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
estatura:datatranspose;
histogram (
estatura,
nclasses=15,
frequency=density,
xlabel="Espacio muestral. Porcentaje acierto tiros libres",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Para ello nos ayudamos de nuevo de Stata 13.0, y estipulamos una distribución Beta de parámetros (18, 7.5). 

Es decir, para la modelización empírica debemos postular a priori una familia de densidades que refleje el mecanismo estocástico que da origen a los datos observados. Para ello, tiene espacial relevancia el rango de valores de la variable aleatoria.

Estamos todavía al comienzo, pero ya hemos intuido cómo se plantea un modelo de probabilidad.

Todos los posts relacionados




(#436). TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIc)

[MONOTEMA]  Continuamos con el tercer apartado del tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos.

Si vemos  como sólo una función del punto final del intervalo , entonces podemos definir la distribución acumulada (cdf):

Ahora sí hemos generado una función que relaciona el número real asignado a cada posible evento con su probabilidad de ocurrencia. Pero en este caso es la probabilidad acumulada.

Para el caso simple (discreto) tenemos la función de densidad:

Por tanto, los espacios probabilísticos pueden simplificarse en el caso de variables aleatorias discretas y continuas a los siguientes:

Spanos se plantea en este punto si se pueden definir funciones de densidad para variables continuas y funciones de distribución para variables discretas, y la respuesta es que sí.

La estatura de los jugadores de la NBA se puede considerar como una variable continua. Desde el inicio de la NBA hasta el año 2015, hay 3984 jugadores cuya estatura se muestra en este archivo.

El histograma de la distribución es el siguiente:

data:read_list(file_search("RUTADELARCHIVO.txt "));
datatranspose:transpose(data);
estatura:datatranspose;
histogram (
estatura,
nclasses=15,
frequency=density,
xlabel="Espacio muestral. Estatura jugadores NBA (cm)",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Es una distribución que se aproxima a una Normal, pero que no sabemos realmente si lo es. Recordemos que una distribución Normal tiene como función de densidad:

De este modo, podemos tomar como media y desviación típica la de la muestra, como una estimación de los parámetros poblacionales.

El resultado, tras emplear Stata 13.0, es el mostrado en el gráfico siguiente:

Sin embargo, otras distribuciones también podrían ajustarse a los datos. Por ejemplo, la distribución Weibull:

En Maxima podemos representar las 3 distribuciones, Normal, Weibull y logística, de la siguiente forma:

load(distrib);
plot2d([pdf_weibull(x,18,198.2),pdf_logistic(x,198.2,5.5),
pdf_normal (x, 198.2, 9.32)],
[x,160,230],[y,0,0.05],
[xlabel, "Espacio muestral. Estatura jugadores NBA (cm)"],
[ylabel, "Densidad de probabilidad"],
[legend, "Weibull", "Logistica", "Normal"]);

Las 3 distribuciones consideradas, estipulan que . Esto es un elemento a tener en cuenta porque en este caso tenemos  una distribución de estatura cuyos valores no pueden ser nunca cero o menor que cero. Por tanto, . Desde el punto de vista práctico quizá para este ejemplo no tenga demasiada importancia, pero a nivel didáctico nos sirve para justifica la búsqueda de otra función de densidad que sólo permita valores positivos.

Una opción es emplear la función chi-cuadrado:

donde r son los grados de libertad y  es la función Gamma.

Así, para r=198, y con la ayuda de Stata 13.0, vemos la distribución chi-cuadrado en azul.

Como se puede apreciar, el ajuste no es tan bueno como la distribución Normal, aunque pese a que la Normal tenga un rango de valores teórico fuera del permitido por este caso.

En definitiva, hemos visto que podemos simplificar los espacios probabilísticos empleando funciones de densidad y de distribución. Así, con la adecuada elección de la función de densidad podemos relacionar los eventos con su probabilidad de ocurrencia, teniendo en cuenta que en distribuciones continuas lo pertinente es analizar la probabilidad entre 2 puntos de la distribución.

Todos los posts relacionados




(#435).TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIb)

[MONOTEMA] Avanzamos en el tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos, dando una noción general de variable aleatoria:

La variable aleatoria simple es un caso particular contenido en esta definición general. El espacio de eventos discreto está contenido en este continuo.

Spanos define la pre-imagen  de la variable aleatoria  como  una función que mapea números reales en el espacio de eventos:

De este modo, si , entonces:

En la definición general de variable aleatoria:

  

El conjunto de todos esos intervalos es un Borel-field :

De este modo: 

Y así Spanos realiza una metamorfosis del espacio probabilístico gracias a la función variable aleatoria:

que es el espacio inducido por la variable aleatoria.

Todos los posts relacionados




(#434).TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIa)

[MONOTEMA] Continuamos con el tercer capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. 

Capítulo III. La noción de un modelo probabilístico

Comencemos con una visión simple del concepto de variable aleatoria.

El autor divide en 3 pasos el objetivo de mapear el espacio probabilístico   sobre la recta real :

Paso 1:

 

donde se preserva la estructura del espacio de eventos , tal que   para cada .

Este es el concepto simple de variable aleatoria.

Paso 2: 

 es una función de probabilidad

 es una función de distribución

Paso 3:

 es una función de densidad

 para todo 

Es decir, para cada valor de X, o lo que es lo mismo, para cada , la función de densidad  especifica la probabilidad. Y esto hace que no sea necesario conocer las probabilidades a priori, sino que simplemente estén en función de algún parámetro .

Así podemos obtener una familia de funciones de densidad determinada por , lo que va a ser esencial para el modelado estadístico. Es decir, en función de las características del experimento se pueden proponer diferentes funciones de densidad con divergentes valores de 

Lanzar tiros libres en baloncesto

Podemos definir diferentes experimentos sobre el lanzamiento de tiros libres en baloncesto. Por ejemplo:

1)  Al lanzar un tiro libre podemos definir la variable aleatoria:

: acertar

Según este experimento podemos definir  la distribución de Bernuilli:

2) Al lanzar varios tiros libres, podemos definir la variable aleatoria:

: número de aciertos total en n lanzamientos

Como bien indica Spanos, la repetición de n ensayos de Bernouilli nos da la distribución binomial cuya función de densidad es:

donde:

Tanto el caso 1) como el 2) lo comentamos en el Capítulo IIa.

3) Pero consideremos de nuevo el experimento de lanzar varios tiros libres, pero ahora definamos la siguiente variable aleatoria:

: lanzar tiros libres hasta anotar

Ahora la elección de la función de densidad ya no es la de una distribución binomial, sino geométrica:

Si seguimos con el ejemplo de Luka Doncic y su 71.3% de efectividad en los lanzamientos libres en 2018/19, entonces:

que obviamente coincide con su probabilidad, es decir, que cuando lanza un sólo tiro libre el valor es el de la probabilidad de anotar. Pero. ¿cuál sería la probabilidad de que tuviera que lanzar 3 tiros libres para anotar? O lo que es lo mismo, que fallara los dos primeros y anotara el tercero:

Es decir, que un poco más del 5% de las ocasiones en las que Doncic lance tres tiros libres seguidos, fallará los dos primeros y anotará el tercero.

En el siguiente código de Maxima se especifica la distribución geométrica para n=5, con las probabilidades correspondientes:

kill (all);
tiroslibres(n,x,fi):=fi*(1-fi)^(x-1);
funcion(x):=tiroslibres(5,x,0.713);
unlanzamiento:funcion(1);
doslanzamientos:funcion(2);
treslanzamientos:funcion(3);
cuatrolanzamientos:funcion(4);
cincolanzamientos:funcion(5);
plot2d([funcion(x),[discrete,[[1,unlanzamiento],
[2,doslanzamientos],[3,treslanzamientos],
[4,cuatrolanzamientos], [5,cincolanzamientos]]]], [x,1,5],
[y,0,1], [style, lines, points],[color, green, red],
[xlabel, "Tiros libres lanzados hasta anotar el primero"],
[ylabel, "Función de densidad"], [legend, false]);

En el siguiente post, avanzaremos con una noción más general de variable aleatoria.

Todos los posts relacionados




(#428) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIc)

[MONOTEMA] Seguimos con la tercera parte del segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Tras explicar la estructura básica de un modelo estadístico simple, y lo que es una muestra aleatoria, continuamos avanzando en el desarrollo de conceptos fundamentales.

Experimento aleatorio

Un experimento aleatorio  se define como el mecanismo de incertidumbre que satisface las siguientes condiciones:

a) Todos los posibles distintos resultados son conocidos a priori.

b) En cualquier ensayo el resultado no se conoce a priori, pero existe una discernible regularidad de ocurrencia asociada con esos resultados.

c) Puede ser repetido en idénticas condiciones.

Sobre esta definición vemos que, por ejemplo, cualquier dato que obtengamos de un jugador de baloncesto no es un experimento aleatorio, porque falla en la condición c), es decir, no puede ser repetido en idénticas condiciones, como cuando tiramos una moneda o lanzar un dado. Cuando contamos con los llamados “datos observacionales”, no tenemos un experimento aleatorio, pero eso no indica que no se pueda proponer un modelo estadístico. La distinción con un experimento aleatorio es, sin embargo, preceptiva.

Evento

Un evento es una afirmación en relación a un experimento aleatorio por la cual lo único que importa es su valor de ocurrencia, es decir, si en un particular ensayo ha ocurrido o no. En general, los eventos se forman combinando resultados elementales. Por ejemplo, al tirar 2 monedas el conjunto de resultados es:

donde H es una cara y T es una cruz.

Un evento A podría ser, por ejemplo, obtener al menos una cara:

Como puede apreciarse, un evento es un subconjunto del conjunto de resultados posibles del experimento.

Field

Definimos como “field” (campo) – seguiremos empleando por conveniencia el vocablo inglés-, a una colección  de subconjuntos de S, cuando se satisfacen las siguientes condiciones:

(i)

(ii) Si

(iii) Si  

Esto indica que el campo no está vacío y que es un conjunto cerrado bajo complementación, unión e intersección finitas. Es decir, si A, B son eventos, cualquier evento que surja de la combinación de ambos será un elemento del mismo espacio.

σ-field

Una colección  de subconjuntos de S es un σ-field si satisface:

(i)

(ii) Si

(iii) Si  

Que es una generalización de la definición anterior de campo. Cuando un σ-field se define en la recta real se llama un σ-field de Borel.

En consecuencia, hemos definido un espacio de eventos, un concepto fundamental dentro del hilo conductor del desarrollo de Spanos.

Concepto de función

Una función es una relación entre los conjuntos A y B, que satisface la restricción de que para cada  existe un único elemento  tal que . Los conjuntos A y B son, respectivamente, el dominio y el co-dominio de la función .

El conjunto es el grafo de la función.

Una relación R entre los conjuntos A y B es cualquier subconjunto del producto cartesiano , donde es el conjunto de todos los pares ordenados .

Recordemos que Spanos definía una variable aleatoria como una función entre un conjunto de todos los posibles resultados y un conjunto de números de la recta real.

Noción matemática de probabilidad

Es una función  del espacio de eventos hacia números reales entre 0 y 1.

si se satisfacen los siguientes axiomas:

[1]

[2] 

[3] 

Espacio probabilístico

Un espacio probabilístico es el compendio de donde e sun conjunto de resultados, e sun espacio de eventos asociados a , y es una función de probabilidad que cumple los axiomas [1]-[3].

Espacio muestral

Un espacio muestral  es una secuencia de n ensayos denotados por  donde  representa el iésimo ensayo del experimento asociado con el espacio de probabilidad producto .

Al conjunto se le llama espacio estadístico simple, un caso particular del más general especio estadístico .

Este esfuerzo inicial por definir conceptos esenciales, nos ayudará a entender mejor  el Capítulo III.

Todos los posts relacionados




(#427) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIb)

[MONOTEMA] Expondremos aquí la segunda parte del segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Tras explicar la estructura básica de un modelo estadístico simple, continuamos avanzando en el desarrollo de conceptos fundamentales.

Muestra aleatoria

Una  muestra aleatoria asume dos características fundamentales: independencia e idéntica distribución.

Las variables aleatorias son independientes si la probabilidad de ocurrencia de cualquiera de ellas no influye y no ha sido influida por la ocurrencia de cualquier otra del conjunto.

La idéntica distribución se da cuando sus funciones de densidad son iguales, es decir:

Spanos va muy despacio introduciendo todos estos conceptos, que posteriormente serán desarrollados con más detalle.  Por eso, nosotros vamos a ir también de la mano del autor, comentando ejemplos sencillos.

Cojamos de nuevo a Kemba Walker y sus puntos por minutos en los 82 partidos jugados en 2018/19, y vamos a generar 4 muestras aleatorias de 60 observaciones cada una. Para ello hemos empleado el generador de números aleatorios de XLStat, que se puede integrar en Excel. Una vez que se han generado las 4 muestras, las llevamos a Maxima para su gestión gráfica:

kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker1:datatranspose[1];
histogram (
walker1,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker2:datatranspose[2];
histogram (
walker2,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker3:datatranspose[3];
histogram (
walker3,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt "));
datatranspose:transpose(data);
walker4:datatranspose[4];
histogram (
walker4,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Como se puede apreciar, las distribuciones son prácticamente idénticas. Pero, ¿qué sucedería ahora si escogemos una muestra no aleatoria? Lo comprobamos a continuación seleccionando los primeros y últimos 60 partidos.

Y aquí podemos ver dos fenómenos curiosos. En primer lugar, que la selección no aleatoria de los primero 60 partidos se distribuye de forma similar a las muestras aleatorias anteriores. Y en segundo lugar, que la selección no aleatoria de los últimos 60 partidos refleja un cambio ostensible en la forma de la distribución de datos.

Las consecuencias que tienen las dos últimas figuras las iremos comentando más adelante. Pero ya advertimos un corolario preliminar: Una muestra no aleatoria puede distribuirse igual que una aleatoria o no.

Sin embargo, además, hemos de ser conscientes de que muestras aleatorias de tamaños diferentes pueden diferir en su apariencia. Por ejemplo, si ahora seleccionamos 2 muestras aleatorias de 30 observaciones, obtenemos lo siguiente:

Esa apariencia es diferente de la mostrada cuando se escogían 60 observaciones.

Hay que tener en cuenta de que estamos hablando de distribuciones muestrales, y que en la definición de Spanos no se pretende ir más allá de los conceptos de independencia e idéntica distribución de las variables aleatorias.

Y es aquí donde quizá aparezca la confusión, porque Spanos en la página 33 habla sobre una única variable aleatoria X, mientras que en la página 38 especifica un conjunto de variables aleatorias. En realidad, en el ejemplo del rendimiento del jugador de baloncesto, los puntos por minuto es una única variable aleatoria que se distribuye de una determinada forma. Una muestra aleatoria de esa varibale requiere que todas las observaciones tengan la misma probabilidad de ser seleccionadas. Las diferentes muestras aleatorias que se puedan recoger deberán ser también independientes, y esas muestras serán a su vez variables aleatorias que idealmente se distribuirán de forma equivalente.

Sí, quizá estamos adelantando conceptos, pero es necesario hacerlo para manejarnos en esta complejidad técnica.

Seguiremos con la tercera parte de este segundo capítulo en posteriores posts.

Todos los posts relacionados




(#426) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIa)

[MONOTEMA] Continuamos con el segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Debido a su extensión, lo dividiremos en partes, en aras de hacer más sencillo el estudio paso a paso.

Capítulo II. Teoría de la probabilidad: Un marco para modelar

La teoría de la probabilidad provee la base fundacional y el marco de referencia para la modelización de datos y la inferencia estadística.

La inferencia estadística es eminentemente inductiva, ya que establece conclusiones de los observables más allá de estos. De este modo, los datos observados son vistos como una realización particular de un mecanismo estocástico que se ha especificado por el modelo estadístico postulado a priori.

Estructura básica de un modelo estadístico simple

Un modelo estadístico tiene 2 componentes:

(1) Modelo de probabilidad:

(2) Modelo de muestreo:  es una muestra aleatoria

Lo que nos dicen estas dos componentes es que el modelo de probabilidad especifica una familia de densidades  definida sobre el rango de valores de la variable aleatoria ; una función de densidad para cada valor del parámetro , que tiene un rango de valores determinado por .

Chebyshev definió de forma simple una variable aleatoria como una variable real que puede asumir diferentes valores con diferentes probabilidades.

Una variable aleatoria es una función de un conjunto de resultados a la recta real, asignando números a esos resultados. Por ejemplo, con 2 dados:

Por tanto, lo que tenemos aquí es una función que relaciona a un conjunto posible de resultados con números de la recta real. En el primer caso, esos números coinciden con la suma de los números posibles al lanzar los dados, y en el segundo, hacer referencia a cuando el resultado es par o impar. En ambos casos, tenemos variables aleatorias. Es obvio deducir que , es la recta real. Y también es sencillo estipular que

Cualquiera que sea la variable aleatoria tiene que cumplir lo siguiente:

Es decir, que la probabilidad de un resultado particular siempre es cero o positiva, y que la suma de todas las probabilidades del conjunto de resultados de la recta real es 1.

Cuando esos números de la recta real son un conjunto infinito, la distribución es continua en lugar de discreta, y entonces:

¿Cómo definiriamos una variable aleatoria X que represente el lanzamiento de un tiro libre en baloncesto? Podría ser de la siguiente forma:

Aquí vemos que el conjunto de resultados posible es , que representan un fallo y un acierto, respectivamente. Ese conjunto se “traslada” a la recta real en forma de dos números, 0 y 1, que representan también el fallo y el acierto. Y a cada uno de esos números se le asigna una probabilidad.

Por ejemplo, el jugador de los Mavs, Luka Doncic, ha tenido un 71.3% de acierto en los tiros libres en la temporada 2018/19. Podríamos entonces estipular que:

En Maxima lo podríamos representar así:

f_0:0.287;
f_1: 0.713;
plot2d([discrete,[[0,f_0],[1,f_1]]], [x,0,1],[y,0,1],
[style, points, points],[color, red, green],
[xlabel, "Resultado: fallo (0), acierto (1)"],
[ylabel, "Función de densidad"],
[legend, false]);

La función de densidad que podríamos definir para el caso anterior sería:

que es la función de densidad de Bernouilli.

Fijémonos en lo que hemos hecho: hemos construido una función de densidad que nos dice en cada momento, es decir, para cada valor de x, la probabilidad de ese valor. Ese valor de probabilidad está en función de un parámetro desconocido, cuyo rango de valores coincide con el rango de valores de probabilidad, pero no siempre tiene que ser así, como veremos más adelante.

Como bien indica Spanos, la repetición de n ensayos de Bernouilli nos da la distribución binomial cuya función de densidad es:

donde:

Así, podríamos calcular, por ejemplo, la probabilidad de que Luka Doncic anotara los 3 tiros libres que lanza cuando le hacen una falta personal en un triple:

Pero aquí ya hemos cambiado el escenario, ya no tenemos la misma variable aleatoria que antes, sino la siguiente:

El conjunto de resultados es 27 porque son las variaciones con repetición de 3 elementos tomados de 3 en tres.

Por tanto:

Es decir, la probabilidad de que Luka Doncic anote los 3 lanzamientos libres es del 36.2%.

Obviamente, todos estos análisis los hemos realizado suponiendo independencia en los tiros libres, algo que la investigación en baloncesto nos dice que es cuestionable.

Podemos escribir una función en Maxima para representar esos valores de la distribución binomial, que recordemos que es discreta, pero hemos añadido una curva para que se aprecie la tendencia.

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
funcion(x):=tiroslibres(3,x,0.713);
ceroaciertos:funcion(0);
unacierto:funcion(1);
dosaciertos:funcion(2);
tresaciertos:funcion(3);
plot2d([funcion(x),[discrete,[[0,ceroaciertos],
[1,unacierto],[2,dosaciertos],
[3,tresaciertos]]]], [x,0,3],[y,0,1],
[style, lines, points],[color, green, red],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, false]);

Como se puede ver, lo más probable es que Doncic anote 2 de los 3 tiros libres. Si incrementamos el número de ensayos, la distribución se aproxima a una Normal, algo que también veremos más adelante, donde el máximo de probabilidad coincide con el valor del parámetro .

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
funcion(x):=tiroslibres(100,x,0.713);
setentayunaciertos:funcion(71);
plot2d([funcion(x),[discrete,[
[71,setentayunaciertos]]]], [x,0,100],[y,0,0.1],
[style, lines, points],[color, green, red],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, false]);

Podemos ahora comparar esas curvas de probabilidad entre diferentes jugadores, que tienen habilidades dispares. El porcentaje de Doncic es discreto para un jugador de ese nivel, el de Anthony Davis es bueno (79.4%) y el de James Harden es muy bueno (87.9%).

A la hora de encarar una serie de 3 tiros libres:

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
n:3;
Doncic(x):=tiroslibres(n,x,0.713);
Davis(x):=tiroslibres(n,x,0.794);
Harden(x):=tiroslibres(n,x,0.879);
plot2d([Doncic(x),Davis(x),Harden(x)], [x,0,n],[y,0,1],
[style, lines,lines, lines],[color, green, blue, orange],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, "Doncic", "Davis", "Harden"]);

Tanto Davis como Harden tienen más probabilidad de encestar los 3 que de encestar 2, no así, como hemos dicho, Doncic.

Y si miramos ahora a una serie de 100 tiros libres, se puede apreciar mejor las curvas de probabilidad, que reflejan la habilidad de estos jugadores.

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)fi^x(1-fi)^(n-x);
n:100;
Doncic(x):=tiroslibres(n,x,0.713);
Davis(x):=tiroslibres(n,x,0.794);
Harden(x):=tiroslibres(n,x,0.879);
plot2d([Doncic(x),Davis(x),Harden(x)], [x,0,n],[y,0,0.15],
[style, lines,lines, lines],[color, green, blue, orange],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, "Doncic", "Davis", "Harden"]);

Continuaremos con la segunda parte de este capítulo II en próximos posts.

Todos los posts relacionados




(#424) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (I)

[MONOTEMA] Durante los próximos meses vamos a ir comentando algunos de los puntos más destacados de una obra extraordinaria: Probability Theory and Statistical Inference, de Aris Spanos, un libro que debería ser de obligada lectura para todos los estudiantes e investigadores en ciencias.

Lo haremos con el máximo de los respetos, y con el reconocimiento de que la interpretación aquí mostrada no hará justifica al excelso contenido del libro. Sin embargo, la intención es que ayude a estudiantes a introducirse en el mundo de la investigación, así como diseminar los postulados de este gran investigador.

La idea es ir realizando un pequeño post por capítulo, intentando mostrar algunos ejemplos llevados a campos relacionados con mi actividad investigadora.

Capítulo I. Una introducción a la modelización empírica

Spanos define la modelización empírica como una descripción parsimoniosa de fenómenos estocásticos observables, empleando modelos estadísticos.

Un modelo estadístico pretende capturar la información estadística sistemática. Por tanto, es importante ya darnos cuenta que modelizar implica proponer una forma de plantear relaciones entre variables que expliquen cómo se han generado los datos, donde el interés reside en el componente sistemático, es decir, en aquello que está fuera de la aleatoriedad.

Los modelos empíricos envuelven un amplio espectro de procedimientos inter relacionados:

a) Especificación: Elección del modelo estadístico.

b) Estimación: Estimación de los parámetros del modelo.

c) Test de mala especificación: Evaluación de la validez de las asunciones probabilísticas postuladas en el modelo.

d) Re-especificación: Elección alternativa de otro modelo estadístico.

Como muy bien comenta el autor, estas facetas distinguen a los datos observacionales de los experimentales, donde en este último caso el principal objetivo es la estimación, siendo las facetas a) y d) constitutivas del diseño experimental, y donde c) juega un papel más secundario.

Algunas definiciones importantes:

  • Fenómeno estocástico: Aquel en que los datos observados exhiben patrones de regularidad inciertos (emplea la palabra “chance”).
  • “Chance”: La incertidumbre inherente a la ocurrencia de un determinado resultado.
  • Regularidad: Presencia de orden relativo a la ocurrencia de muchos de esos resultados. Es diferente al concepto de aleatoriedad.

Spanos emplea el ejemplo de lanzar dos dados, con el fin de tener una primeración noción intuitiva de conceptos fundamentales.

Vamos a emplear Maxima para dibujar un histograma de este ejemplo:

numeros_2dados:[2,  3,  4,  5,  6,  7,  
3, 4, 5, 6, 7, 8, 4, 5, 6, 7,
8, 9, 5, 6, 7, 8, 9, 10, 6, 7,
8, 9, 10, 11, 7, 8, 9, 10, 11, 12]$
histogram (
numeros_2dados,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Y ahora de nuevo usamos Maxima para dibujar los resultados de lanzar 2 dados 100 veces, en un gráfico que Spanos denomina “t-plot“:

resultados: makelist(random(11)+2,100);
plot2d([[discrete, resultados],
[discrete,resultados]],
[x,0,100],[y,2,12],[style, points, lines],
[color, red, green],[xlabel, "Número de lanzamiento"],
[ylabel, "Suma de los 2 dados"], [legend, false]);

He aquí los 3 conceptos que debemos comprender a la perfección:

[1] Distribución: El histograma desprende una distribución determinada de los datos empíricos, en este caso con mayor concentración en el centro y menos en los extremos.

[2] Independencia: El resultado de un lanzamiento no influye en el siguiente, tal y como muestra el t-plot.

[3] Homogeneidad: Las probabilidades asociadas con los diferentes resultados permanecen idénticas para todos los ensayos realizados.

Veamos un ejemplo práctico con datos reales. Cojamos los 82 partidos jugados por Kemba Walker en la temporada regular de la NBA 2018/19, y realicemos los mismos gráficos:

data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker:datatranspose;
histogram (
walker,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

plot2d([[discrete,datatranspose[1]], 
[discrete,datatranspose[1]]], [x,0,82],[y,0,1.5],
[style, points, lines],[color, red, green],
[xlabel, "Puntos/minuto"],[ylabel, "Número de partido jugado"],
[legend, false]);

Aquí tenemos ya un poco más de dificultad para interpretar los gráficos, aunque disponemos de los 3 mismos conceptos bien representados:

[1] Distribución: Claramente hay una distribución centrada en los valores medios, aunque no con una apariencia tan “Normal” como en un fenómeno aleatorio:

[2] Independencia: No está tan claro que hay total independencia, parece que puede haber la existencia de rachas, de algún componente sistemático que afecte el rendimiento.

[3] Homogeneidad: Tampoco es diáfano que las probabilidades asociadas a los diferentes resultados se mantengan constantes.

Esto es una mera ilustración de que, para cada conjunto de datos que tengamos, necesitamos estudiar detenidamente varios aspectos de los mismos que conformarán nuestras asunciones probabilísticas. Los gráficos son una gran ayuda, pero también habremos de ayudarnos de test que nos asistan cuando, como en el caso de los datos de Kemba Walker, no lo tengamos tan claro.

El siguiente paso es trasladar los patrones de regularidad con incertidumbre en información estadística con un componente sistemático. Para ello, prestemos atención a la siguiente definición:

Un modelo estadístico es un conjunto de asunciones probabilísticas compatibles que provienen de tres categorías: [D] distribución, [M] dependencia, [H] heterogeneidad.

Obviamente, coinciden con las 3 facetas con las que intepretábamos los datos anteriores.

Spanos incide en que la modelización empírica no trata sobre elegir óptimos estimadores, sino sobre escoger modelos estadísticos adecuados. Así, distingue entre la información estadística y la teoría que hay detrás del modelo. De esta forma, la teoría de la probabilidad funciona como un lenguaje neutral independiente de la teoría económica, psicológica, etc., que hay detrás del modelo. La validez del modelo descansa primeramente sobre la validez de las asunciones probabilísticas.

Por ello, este proceso de análisis es deductivo-inductivo, en el sentido en que el razonamiento toma la forma de modus ponens:

si p, entonces q

Si ciertas premsas son asumidas, ciertas conclusiones necesariamente se obtienen. Si las asunciones probabilísticas no se cumplen, se interpreta como que hay un componente sistemático añadido que hay que tener en cuenta, por lo que hay que re-especificar el modelo.

De nuevo enfatiza la distinción entre un modelo estadístico y un modelo teórico; el modelo estadístico es un testigo sin prejuicios acerca de la validez de las asunciones, sobre cuyo testimonio se evalúa la idoneidad empírica del modelo teórico. Así, ninguna teoría, por sosfisticada que sea, puede compensar un modelo estadístico mal especificado.

Spanos introduce la siguiente notación:

  • Datos transversales:

donde k, representa individuos, empresas, etc.

  • Datos longitudinales:

donde t es el tiempo.

  • Datos de panel:

Es importante señalar que los datos transversales no tienen un orden natural temporal, pero sí que lo pueden tener a nivel espacial o de cualquier otra dimensión:

Para mostar esto gráficamente, podemos emplear los puntos obtenidos por los jugadores de los Warriors en el segundo partido de la final de la NBA 2019.

kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
plot2d([[discrete,datatranspose[1]],
[discrete,datatranspose[1]],
[discrete,datatranspose[2]],
[discrete,datatranspose[2]]],
[x,1,12],[y,0,30],
[style, points, lines, points, lines],
[color, red, green, blue, orange],
[xlabel, "Jugador"],[ylabel, "Puntos"],
[legend, false]);

Los puntos rojos y línea verde representan los datos ordenados alfabéticamente, pero los datos con puntos azules y línea naranja lo hacen en función creciente de los minutos jugados. Por tanto, aunque estos datos sean claramente transversales porque se han obtenido como una foto instantánea al terminar el partido, existe un ordenamiento en (al menos) una dimensión.

Seguiremos próximamente con el Capítulo II.

Todos los posts relacionados




(#420). LA PARADOJA DE CHEVALIER DE MERE Y LOS ESTUDIANTES DE MARKETING

[MONOTEMA] Uno de los objetivos fundamentales de mi labor como profesor de marketing es hacer ver a los estudiantes que necesitan una formación científica muy alta para entender mejor los fenómenos sociales a los que se enfrentan. Por ello, hacemos énfasis en la importancia de las matemáticas, la lógica y la heurística para la toma de decisiones, pero con especial interés en estimular el pensamiento y la formación en estadística.

La paradoja de Chevalier de Mere es una buena forma de mostrar cómo los razonamientos aparentemente lógicos y sencillos pueden ser erróneos, con lo que se necesita de un cierto dominio de herramientas matemáticas para llegar al resultado correcto.

La paradoja

Aris Spanos, uno de los grandes maestros en econometría de nuestros días, en su libro Probability Theory and Statistical Inference, la describe de la siguiente forma:

En el siglo XVII, Pascal envió una carta a Fermat en relación a un problema que le había planteado un noble (y experto jugador) llamado Chevalier de Mere.

De Mere observó la siguiente regularidad derivada de los datos empíricos:

  • La probabiliad de obtener al menos un 6 en 4 lanzamientos de un dado es mayor de 0.5
  • La probabilidad de obtener al menos un 6 doble (un 12) en 24 lanzamientos de dos datos es menor que 0.5

De Mere se preguntaba cómo eso era posible si, siguiendo un razonamiento aparentemente lógico, ambas probabilidades debían ser iguales, es decir, conseguir un 6 sobre 4 lanzamientos de un dado debería ser lo mismo que conseguir un doble 6 en 24 lanzamientos de 2 dados, ya que 4/6 es igual a 24/36.

La solución

Aris Spanos, sin embargo, argumenta que no existe tal paradoja, porque cuando uno analiza los datos con suficiente rigor, las probabilidades difieren.

  • La probabilidad de obtener un doble 6 es:

  • La probabilidad de obtener un doble 6 en n lanzamientos es:

 

  • La probabilidad de no obtener un doble 6 en n lanzamientos es:

 

  • La probabilidad de obtener al menos un doble 6 en n lanzamientos es: 
  • Para  

 

En el caso de un dado:

  • La probabilidad de obtener un  6 es:

 

  • La probabilidad de obtener un 6 en m lanzamientos es: 

  • La probabilidad de no obtener un  6 en m lanzamientos es:

 

  • La probabilidad de obtener al menos un 6 en m lanzamientos es: 
  • Para 

 

Por tanto, el resultado empírico de de Mere era correcto, pero su razonamiento lógico fallaba.

Una explicación más clara

Podemos obtener una explicación más clara sobre la solución del problema si consultamos el (recomendable) artículo de  Basulto y Camúñez (2007).

No obstante, podemos simplemente proponer un razonamiento que nos lleve a concluir que ambas probabilidades son diferentes.

Podemos reordenar las ecuaciones anteriores de la siguiente forma:

Si llamamos:

Entonces:

Tomando logaritmos neperianos a ambos lados:

Si ahora suponemos que , es decir que ambas probabilidades son iguales, entonces:

De este modo:

Así, la única manera en que las probabilidades pueden ser iguales es cuando se cumple la relación anterior, es decir, que la razón del número de ensayos sea igual a la inversa de la razón de los logaritmos neperianos de las probabiliades de no obtener el número deseado.

Para el caso del ejemplo de Spanos:

lo que es, obviamente, imposible, y por tanto ambas probabilidades no pueden ser iguales.

Para que ambas fueran iguales, entonces para el caso de dos dados la probabilidad de no obtener un doble 6 debería ser 34.926/36 en lugar de 35/36.

También se puede ver de otro modo, y es que si los ensayos son los mismos, por ejemplo 4, entonces:

que obviamente no es posible.

Un gráfico que puede ayudar a comprender lo que está sucediendo es el que relaciona la probabilidad de no obtener el número deseado cuando se lanzan k dados:

Como se aprecia, el incremento de probabilidad es no lineal (en realidad la figura debería ser dibujada con puntos discretos para k=1, k=2, etc, pero se ha dibujado contínua para que se aprecie mejor la no linealidad).

Conclusión

La paradoja de de Mere no es en realidad una paradoja, sino una muestra de que razonamientos aparentemente sencillos y lógicos no dan el resultado correcto. Para llegar a resolver este tipo de problemas, necesitamos herramientas matemáticas que nos ayuden a no equivocarnos (o a hacerlo lo menos posible).

Los estudiantes de marketing deben apresurarse a interesarse por este sistema de pensamiento para tomar decisiones, sobre todo cuando han de analizar datos empíricos.

Todos los posts relacionados