(#437). TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIId)

[MONOTEMA] En esta cuarta entrega del tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos, seguimos profundizando en la relación entre espacio de probabilidad y modelo de probabilidad.

Cuando las probabilidades son funciones conocidas de ciertos parámetros desconocidos , entonces podemos transformar el espacio probabilístico en un modelo de probabilidad definido por:

donde  es una colección de funciones de densidad que dependen de un conjunto de parámetros  en el espacio paramétrico .

Podríamos usar también la función de distribución:

Pongamos un ejemplo usando la distribución Beta como modelo de probabilidad:

 

Podemos analizar el porcentaje de acierto en los tiros libres de los jugadores NBA hasta 2015 (el acumulado en sus respectivas carreras), para aquellos que hubieran lanzado al menos 30 tiros libres.

El histograma de la distribución es el siguiente:

data:read_list(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
estatura:datatranspose;
histogram (
estatura,
nclasses=15,
frequency=density,
xlabel="Espacio muestral. Porcentaje acierto tiros libres",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Para ello nos ayudamos de nuevo de Stata 13.0, y estipulamos una distribución Beta de parámetros (18, 7.5). 

Es decir, para la modelización empírica debemos postular a priori una familia de densidades que refleje el mecanismo estocástico que da origen a los datos observados. Para ello, tiene espacial relevancia el rango de valores de la variable aleatoria.

Estamos todavía al comienzo, pero ya hemos intuido cómo se plantea un modelo de probabilidad.

Todos los posts relacionados




(#436). TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIc)

[MONOTEMA]  Continuamos con el tercer apartado del tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos.

Si vemos  como sólo una función del punto final del intervalo , entonces podemos definir la distribución acumulada (cdf):

Ahora sí hemos generado una función que relaciona el número real asignado a cada posible evento con su probabilidad de ocurrencia. Pero en este caso es la probabilidad acumulada.

Para el caso simple (discreto) tenemos la función de densidad:

Por tanto, los espacios probabilísticos pueden simplificarse en el caso de variables aleatorias discretas y continuas a los siguientes:

Spanos se plantea en este punto si se pueden definir funciones de densidad para variables continuas y funciones de distribución para variables discretas, y la respuesta es que sí.

La estatura de los jugadores de la NBA se puede considerar como una variable continua. Desde el inicio de la NBA hasta el año 2015, hay 3984 jugadores cuya estatura se muestra en este archivo.

El histograma de la distribución es el siguiente:

data:read_list(file_search("RUTADELARCHIVO.txt "));
datatranspose:transpose(data);
estatura:datatranspose;
histogram (
estatura,
nclasses=15,
frequency=density,
xlabel="Espacio muestral. Estatura jugadores NBA (cm)",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Es una distribución que se aproxima a una Normal, pero que no sabemos realmente si lo es. Recordemos que una distribución Normal tiene como función de densidad:

De este modo, podemos tomar como media y desviación típica la de la muestra, como una estimación de los parámetros poblacionales.

El resultado, tras emplear Stata 13.0, es el mostrado en el gráfico siguiente:

Sin embargo, otras distribuciones también podrían ajustarse a los datos. Por ejemplo, la distribución Weibull:

En Maxima podemos representar las 3 distribuciones, Normal, Weibull y logística, de la siguiente forma:

load(distrib);
plot2d([pdf_weibull(x,18,198.2),pdf_logistic(x,198.2,5.5),
pdf_normal (x, 198.2, 9.32)],
[x,160,230],[y,0,0.05],
[xlabel, "Espacio muestral. Estatura jugadores NBA (cm)"],
[ylabel, "Densidad de probabilidad"],
[legend, "Weibull", "Logistica", "Normal"]);

Las 3 distribuciones consideradas, estipulan que . Esto es un elemento a tener en cuenta porque en este caso tenemos  una distribución de estatura cuyos valores no pueden ser nunca cero o menor que cero. Por tanto, . Desde el punto de vista práctico quizá para este ejemplo no tenga demasiada importancia, pero a nivel didáctico nos sirve para justifica la búsqueda de otra función de densidad que sólo permita valores positivos.

Una opción es emplear la función chi-cuadrado:

donde r son los grados de libertad y  es la función Gamma.

Así, para r=198, y con la ayuda de Stata 13.0, vemos la distribución chi-cuadrado en azul.

Como se puede apreciar, el ajuste no es tan bueno como la distribución Normal, aunque pese a que la Normal tenga un rango de valores teórico fuera del permitido por este caso.

En definitiva, hemos visto que podemos simplificar los espacios probabilísticos empleando funciones de densidad y de distribución. Así, con la adecuada elección de la función de densidad podemos relacionar los eventos con su probabilidad de ocurrencia, teniendo en cuenta que en distribuciones continuas lo pertinente es analizar la probabilidad entre 2 puntos de la distribución.

Todos los posts relacionados




(#435).TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIb)

[MONOTEMA] Avanzamos en el tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos, dando una noción general de variable aleatoria:

La variable aleatoria simple es un caso particular contenido en esta definición general. El espacio de eventos discreto está contenido en este continuo.

Spanos define la pre-imagen  de la variable aleatoria  como  una función que mapea números reales en el espacio de eventos:

De este modo, si , entonces:

En la definición general de variable aleatoria:

  

El conjunto de todos esos intervalos es un Borel-field :

De este modo: 

Y así Spanos realiza una metamorfosis del espacio probabilístico gracias a la función variable aleatoria:

que es el espacio inducido por la variable aleatoria.

Todos los posts relacionados




(#434).TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIa)

[MONOTEMA] Continuamos con el tercer capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. 

Capítulo III. La noción de un modelo probabilístico

Comencemos con una visión simple del concepto de variable aleatoria.

El autor divide en 3 pasos el objetivo de mapear el espacio probabilístico   sobre la recta real :

Paso 1:

 

donde se preserva la estructura del espacio de eventos , tal que   para cada .

Este es el concepto simple de variable aleatoria.

Paso 2: 

 es una función de probabilidad

 es una función de distribución

Paso 3:

 es una función de densidad

 para todo 

Es decir, para cada valor de X, o lo que es lo mismo, para cada , la función de densidad  especifica la probabilidad. Y esto hace que no sea necesario conocer las probabilidades a priori, sino que simplemente estén en función de algún parámetro .

Así podemos obtener una familia de funciones de densidad determinada por , lo que va a ser esencial para el modelado estadístico. Es decir, en función de las características del experimento se pueden proponer diferentes funciones de densidad con divergentes valores de 

Lanzar tiros libres en baloncesto

Podemos definir diferentes experimentos sobre el lanzamiento de tiros libres en baloncesto. Por ejemplo:

1)  Al lanzar un tiro libre podemos definir la variable aleatoria:

: acertar

Según este experimento podemos definir  la distribución de Bernuilli:

2) Al lanzar varios tiros libres, podemos definir la variable aleatoria:

: número de aciertos total en n lanzamientos

Como bien indica Spanos, la repetición de n ensayos de Bernouilli nos da la distribución binomial cuya función de densidad es:

donde:

Tanto el caso 1) como el 2) lo comentamos en el Capítulo IIa.

3) Pero consideremos de nuevo el experimento de lanzar varios tiros libres, pero ahora definamos la siguiente variable aleatoria:

: lanzar tiros libres hasta anotar

Ahora la elección de la función de densidad ya no es la de una distribución binomial, sino geométrica:

Si seguimos con el ejemplo de Luka Doncic y su 71.3% de efectividad en los lanzamientos libres en 2018/19, entonces:

que obviamente coincide con su probabilidad, es decir, que cuando lanza un sólo tiro libre el valor es el de la probabilidad de anotar. Pero. ¿cuál sería la probabilidad de que tuviera que lanzar 3 tiros libres para anotar? O lo que es lo mismo, que fallara los dos primeros y anotara el tercero:

Es decir, que un poco más del 5% de las ocasiones en las que Doncic lance tres tiros libres seguidos, fallará los dos primeros y anotará el tercero.

En el siguiente código de Maxima se especifica la distribución geométrica para n=5, con las probabilidades correspondientes:

kill (all);
tiroslibres(n,x,fi):=fi*(1-fi)^(x-1);
funcion(x):=tiroslibres(5,x,0.713);
unlanzamiento:funcion(1);
doslanzamientos:funcion(2);
treslanzamientos:funcion(3);
cuatrolanzamientos:funcion(4);
cincolanzamientos:funcion(5);
plot2d([funcion(x),[discrete,[[1,unlanzamiento],
[2,doslanzamientos],[3,treslanzamientos],
[4,cuatrolanzamientos], [5,cincolanzamientos]]]], [x,1,5],
[y,0,1], [style, lines, points],[color, green, red],
[xlabel, "Tiros libres lanzados hasta anotar el primero"],
[ylabel, "Función de densidad"], [legend, false]);

En el siguiente post, avanzaremos con una noción más general de variable aleatoria.

Todos los posts relacionados




(#428) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIc)

[MONOTEMA] Seguimos con la tercera parte del segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Tras explicar la estructura básica de un modelo estadístico simple, y lo que es una muestra aleatoria, continuamos avanzando en el desarrollo de conceptos fundamentales.

Experimento aleatorio

Un experimento aleatorio  se define como el mecanismo de incertidumbre que satisface las siguientes condiciones:

a) Todos los posibles distintos resultados son conocidos a priori.

b) En cualquier ensayo el resultado no se conoce a priori, pero existe una discernible regularidad de ocurrencia asociada con esos resultados.

c) Puede ser repetido en idénticas condiciones.

Sobre esta definición vemos que, por ejemplo, cualquier dato que obtengamos de un jugador de baloncesto no es un experimento aleatorio, porque falla en la condición c), es decir, no puede ser repetido en idénticas condiciones, como cuando tiramos una moneda o lanzar un dado. Cuando contamos con los llamados “datos observacionales”, no tenemos un experimento aleatorio, pero eso no indica que no se pueda proponer un modelo estadístico. La distinción con un experimento aleatorio es, sin embargo, preceptiva.

Evento

Un evento es una afirmación en relación a un experimento aleatorio por la cual lo único que importa es su valor de ocurrencia, es decir, si en un particular ensayo ha ocurrido o no. En general, los eventos se forman combinando resultados elementales. Por ejemplo, al tirar 2 monedas el conjunto de resultados es:

donde H es una cara y T es una cruz.

Un evento A podría ser, por ejemplo, obtener al menos una cara:

Como puede apreciarse, un evento es un subconjunto del conjunto de resultados posibles del experimento.

Field

Definimos como “field” (campo) – seguiremos empleando por conveniencia el vocablo inglés-, a una colección  de subconjuntos de S, cuando se satisfacen las siguientes condiciones:

(i)

(ii) Si

(iii) Si  

Esto indica que el campo no está vacío y que es un conjunto cerrado bajo complementación, unión e intersección finitas. Es decir, si A, B son eventos, cualquier evento que surja de la combinación de ambos será un elemento del mismo espacio.

σ-field

Una colección  de subconjuntos de S es un σ-field si satisface:

(i)

(ii) Si

(iii) Si  

Que es una generalización de la definición anterior de campo. Cuando un σ-field se define en la recta real se llama un σ-field de Borel.

En consecuencia, hemos definido un espacio de eventos, un concepto fundamental dentro del hilo conductor del desarrollo de Spanos.

Concepto de función

Una función es una relación entre los conjuntos A y B, que satisface la restricción de que para cada  existe un único elemento  tal que . Los conjuntos A y B son, respectivamente, el dominio y el co-dominio de la función .

El conjunto es el grafo de la función.

Una relación R entre los conjuntos A y B es cualquier subconjunto del producto cartesiano , donde es el conjunto de todos los pares ordenados .

Recordemos que Spanos definía una variable aleatoria como una función entre un conjunto de todos los posibles resultados y un conjunto de números de la recta real.

Noción matemática de probabilidad

Es una función  del espacio de eventos hacia números reales entre 0 y 1.

si se satisfacen los siguientes axiomas:

[1]

[2] 

[3] 

Espacio probabilístico

Un espacio probabilístico es el compendio de donde e sun conjunto de resultados, e sun espacio de eventos asociados a , y es una función de probabilidad que cumple los axiomas [1]-[3].

Espacio muestral

Un espacio muestral  es una secuencia de n ensayos denotados por  donde  representa el iésimo ensayo del experimento asociado con el espacio de probabilidad producto .

Al conjunto se le llama espacio estadístico simple, un caso particular del más general especio estadístico .

Este esfuerzo inicial por definir conceptos esenciales, nos ayudará a entender mejor  el Capítulo III.

Todos los posts relacionados