(#456). LUKA DONCIC DEBIÓ SER EL JUGADOR MÁS MEJORADO (MIP)

[MONOTEMA]  Brandon Ingram ha sido elegido el jugador más mejorado (MIP) de la NBA en la temporada 2019/20, por encima de Bam Adebayo y de Luka Doncic. Y lo ha hecho, además, con una victoria amplia.

Sin embargo, la sensación que tienen muchos especialistas y aficionados al baloncesto es que esa distinción claramente debió ser para Doncic. El jugador de los Mavs ha realizado una excelente temporada, y antes del parón por la crisis sanitaria sonaba incluso entre los candidatos a MVP.

Desde el punto de vista meramente cuantitativo, según lo que indica el índice Player Total Contribution (PTC), la cuestión no ofrece discusión; el esloveno ha sido, de largo, el jugador más mejorado de la NBA.

Curva de dificultad no lineal

Mi propuesta de análisis para evaluar la mejora de un jugador se basa en el índice PTC por minuto jugado (PTC/MP), que provee una comparativa ajustada al tiempo en la cancha.

La explicación técnica la publiqué en este artículo, donde construyo una curva de dificultad no lineal basada en el histograma de productividades de la liga. A partir de esa curva se calcula un área de dificultad (DA), que es el indicador final que permite comparar la mejora entre jugadores.

La idea, de forma muy general, es considerar que las mejoras sobre rendimientos altos son más meritorias que las mejoras sobre rendimientos bajos. En un rango de [0,1], es mucho más sencillo mejorar de 0.2 a 0.6 que de 0.5 a 0.9. En ambos casos, la diferencia bruta es la misma (0.4), incluso en el primer caso la diferencia relativa es mayor (200% frente a 80%). Sin embargo, en el primer caso el jugador mejora desde un nivel de rendimiento muy bajo hasta llegar a la parte media de la liga, mientras que en el segundo caso mejora desde la parte media hasta ser una super estrella. Es evidente que es mucho más complejo (y por ende más meritorio) ese segundo caso.

Bajo estas premisas, y de nuevo remitiendo a la explicación técnica del artículo se puede realizar ese análisis, como se muestra en la siguiente figura, donde incluyo algunos de los nombres que durante toda la temporada han sonado como jugadores que han avanzado notablemente en su rendimiento.

Como puede observarse Doncic, con mucha ventaja, lidera el ranking de mejora, seguido por Trae Young. Ingram, por su parte, ocupa el tercer puesto. Destaca también la mejora de Antetokounmpo, con unos números de PTC/MP auténticamente siderales, nunca visto antes en la historia de la liga. La siguiente tabla muestra los datos de la figura:

Tabla 1. Productividad por minuto (PTC/MP) en ambas temporadas e indicador de mejora (DA)

  2018/19 2019/20 DA Incremento
Luka Doncic 0,573 0,780 0,193 36,13%
Trae Young 0,492 0,669 0,151 35,98%
Brandon Ingram 0,439 0,583 0,107 32,80%
Johnathan Isaac 0,368 0,495 0,066 34,51%
Giannis Antetokounmpo 0,937 1,000 0,063 6,72%
Andrew Wiggins 0,372 0,488 0,059 31,18%
Jaylen Brown 0,413 0,498 0,051 20,58%
Bam Adebayo 0,533 0,594 0,051 11,44%
Devonte Graham 0,260 0,401 0,043 54,23%
Davis Bertans 0,363 0,453 0,040 24,76%
Aron Baynes 0,448 0,493 0,030 10,04%
Fred VanVleet 0,351 0,429 0,030 22,22%
Spencer Dinwiddie 0,459 0,499 0,027 8,64%

Luka Doncic tiena un DA de 0.193, muy superior al del resto de jugadores, y casi el doble que el de Ingram. El jugador esloveno declaró que debía ser Devonte Graham el que optara también al premio, pero el exterior de los Hornets, pese a haber mejorado un 54.23%, lo ha hecho desde unos niveles muy bajos, por lo que el “mérito” de su mejora no es comparable al de Doncic, Young o Ingram, por ejemplo.

He escrito, además, un código sencillo en Maxima para computar el índice de mejora (DA), dependiendo de los valores del año anterior (a) y corriente (b). Lo único que hay que hacer es poner el valor de PTC/MP donde se indica “INSERTAR VALOR”, y el programa calcula automáticamente el resultado de las integrales.

 f1:1-0.9325*x; f2:%e^(2.95-8.55*x);
 a: INSERTAR VALOR;
 b: INSERTAR VALOR;
 DA1: integrate(1-f1,x,a,b), numer;
 DA2: integrate(1-f1,x,a,0.4)+
 integrate(1-f2,x,0.4,b),numer;
 DA3: integrate(1-f2,x,a,b),
 numer;
 resultados: if a<0.4 and b<0.4 then DA1  elseif a<0.4 and b>=0.4  then DA2
 else DA3;
 print: "La mejora es" (resultados);

Quizá se vea más claro si normalizados el DA para que su rango sea del 0% al 100% (es simplemente dividir el DA calculado anteriormente por el área máxima bajo la curva. No obstante se podrían dar teóricamente valores mayores del 100% si se parte de rendimiento negativo – hiere más que ayuda al equipo-). La siguiente figura muestra esos valores normalizados.

Conclusión

Desde el punto de vista cuantitativo, y admitiendo las debilidades de cualquier métrica basada únicamente en box-score (aunque también considerando las potencialidades del índice PTC), Doncic debió ser elegido, claramente, jugador más mejorado de la NBA en la temporada 2019/20.

Post relacionados




(#446) RENDIMIENTO EN BASE A VICTORIAS PRODUCIDAS POR LOS JUGADORES

[MONOTEMA] El índice PTC se construye en base a los factores que determinan la producción (FDP) en cada partido. Pasar de FDP a PTC se hace mediante una relación de equivalencia, por lo que las unidades de PTC no tienen sentido en sí mismas, pero sí a nivel relativo, por supuesto, es decir, para comparar jugadores.

En cualquier caso, y quizá perdiendo un poco de rigor, pero ganando facilidad interpretativa, hay una forma de convertir los valores de PTC a victorias producidas.

Para ello, hemos tomado los datos de PTC de los equipos de la NBA desde la temporada 1996/97 hasta la 2018/19, junto con el número de victorias. A través de una regresión lineal simple podemos relacionar ambas variables:

Los resultados son:

Es cierto que tenemos una varianza explicada no demasiado buena, pero aquí el interés se centra principalmente en la predicción de las victorias, y menos en la bondad del modelo. Es decir, con lo que tenemos, que es un índice PTC formado por equivalencia, por lo que el teóricamente relacionado con el diferencial de cada partido es el FDP, hemos de arreglárnoslas para realizar una predicción medianamente aceptable. Y esto es lo que acabamos de hacer.

En mi opinión, y para salvar algunos problemas de unidades e interpretabilidad, lo mejor es construir esos valores de victorias producidas con referencia a la media de los jugadores de la NBA (o de las ligas donde se aplique). De este modo, ya no vamos a tener problemas con el intercept  durante cada momento de la temporada (haría que las victorias producidas estuvieran en negativo durante muchos meses).

Por tanto, ya estamos en condiciones de presentar el nuevo índice de victorias producidas, al que podemos llamar PTCwins, y que se calcula de la manera siguiente, para cada jugador :

Y esto es lo que vamos a ir mostrando cada semana (más o menos) tanto para la NBA como para la Liga ACB.

En consecuencia, el PTCwins para cada jugador se interpretaría como el número de victorias estimadas producidas en relación a la media de la liga. Un PTCwins positivo indicaría que el jugador produce más victorias que la media, y PTCwins negativo sugeriría que produce menos victorias que el jugador promedio.

Todos los posts relacionados




(#445) LOS JUGADORES MÁS PRODUCTIVOS DE LA ACB 2019/20

[MONOTEMA] Importante: toda la información se actualizará en mi nueva web:  www.playertotalcontribution.com

Tal y como estamos haciendo con la NBA, realizamos un seguimiento de las productividad de los jugadores de la Liga ACB, empleando como siempre el índice PTC (Player Total Contribution), que creé a comienzos de 2019, y cuya génesis puede consultarse aquí.

Puedes ordenar de mayor a menor las productividades en la columna correspondiente. El mínimo para aparecer en la tabla es haber jugado al menos un tercio de los partidos de la temporada (en cada momento de la misma) y un 12.7% de los minutos.

Por último, estos datos no tienen en cuenta el momento del partido en el que se realizan las acciones (el valor de cada acción en función del resultado, y las posesiones restantes), cuyo método de cálculo puede encontrarse aquí.

Presento, asimismo, el PTC al lado de la Valoración ACB (que es un índice arbitrario y sin sustento teórico y empírico), y el diferencial entre ambas, para dar una idea de lo sobrevalorados o infravalorados que están los rendimientos si se emplea la Valoración ACB. Sería un paso importante que la ACB dejara de emplear la Valoración y utilizara un índice de rendimiento más robusto (obviamente desde aquí le invito a que use PTC).

Actualizado 20/11/19 

[table “4” not found /]

Todos los posts relacionados




(#444). ¿ES LUKA DONCIC UNA ESTRELLA DE LA NBA? ANÁLISIS DE PRODUCTIVIDAD COMPARADA

[MONOTEMA] Importante: toda la información se actualizará en mi nueva web:  www.playertotalcontribution.com

En esta página vamos a ir incorporando los datos de productividad (PTC/MP) de Luka Doncic comparado con otras estrellas de la NBA. El objetivo es analizar al jugador esloveno, tomando como referencia otros jugadores consagrados y futuras estrellas.

La elección de los jugadores a comparar es subjetiva, en base a gustos personales y relaciones interesantes.

Iremos actualizando los datos mes a mes. La lista completa de jugadores con la productividad agregada puede consultarse aquí.

Actualizado 21/11/19 



Todos los posts relacionados




(#443). LOS JUGADORES MÁS PRODUCTIVOS DE LA NBA 2019/20

[MONOTEMA] Importante: toda la información se actualizará en mi nueva web:  www.playertotalcontribution.com

Mantendré actualizada cada semana (más o menos) la productividad por partido de los jugadores de la NBA. Para ello emplearé el índice PTC (Player Total Contribution), que creé a comienzos de 2019, y cuya génesis puede consultarse aquí.

Puedes ordenar de mayor a menor las productividades en la columna correspondiente. El mínimo para aparecer en la tabla es haber jugado al menos un tercio de los partidos de la temporada (en cada momento de la misma). Primero se muestra el Top-10.

También hay una estimación de las victorias producidas en relación al jugador promedio (PTCwp), cuya justificación está aquí. Recordad que es una estimación para dar algo de sentido a las unidades de PTC, pero hay una imprecisión a tener en cuenta, por lo que es sólo una aproximación.  Cuantos más partidos se juegue mayor será el PTCwp, ya que es un índice que mide las victorias producidas totales.

Debajo, además, se pueden consultar dos gráficos de los equipos; En el primero de ellos se refleja la distribución de las productividades entre los jugadores, mientras que en el segundo se muestra la concentración de productividades dentro  de cada equipo. La idea es aproximarnos a la importancia que tiene cada jugador dentro de su equipo.

Por último, estos datos no tienen en cuenta el momento del partido en el que se realizan las acciones (el valor de cada acción en función del resultado, y las posesiones restantes), cuyo método de cálculo puede encontrarse aquí. Y es evidente, que un índice numérico no va a reflejar todos los intangibles, aunque es cierto que la génesis del PTC explica más de un 80% de variación del diferencial de puntos de los partidos, sólo con las variables del box-score. De este modo, es una aproximación muy a tener en cuenta.

Actualizado 20/11/19 

[table “3” not found /]





En cuanto al jugador más mejorado, aquí mostramos algunos candidatos:

Todos los posts relacionados




(#434).TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIa)

[MONOTEMA] Continuamos con el tercer capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. 

Capítulo III. La noción de un modelo probabilístico

Comencemos con una visión simple del concepto de variable aleatoria.

El autor divide en 3 pasos el objetivo de mapear el espacio probabilístico   sobre la recta real :

Paso 1:

 

donde se preserva la estructura del espacio de eventos , tal que   para cada .

Este es el concepto simple de variable aleatoria.

Paso 2: 

 es una función de probabilidad

 es una función de distribución

Paso 3:

 es una función de densidad

 para todo 

Es decir, para cada valor de X, o lo que es lo mismo, para cada , la función de densidad  especifica la probabilidad. Y esto hace que no sea necesario conocer las probabilidades a priori, sino que simplemente estén en función de algún parámetro .

Así podemos obtener una familia de funciones de densidad determinada por , lo que va a ser esencial para el modelado estadístico. Es decir, en función de las características del experimento se pueden proponer diferentes funciones de densidad con divergentes valores de 

Lanzar tiros libres en baloncesto

Podemos definir diferentes experimentos sobre el lanzamiento de tiros libres en baloncesto. Por ejemplo:

1)  Al lanzar un tiro libre podemos definir la variable aleatoria:

: acertar

Según este experimento podemos definir  la distribución de Bernuilli:

2) Al lanzar varios tiros libres, podemos definir la variable aleatoria:

: número de aciertos total en n lanzamientos

Como bien indica Spanos, la repetición de n ensayos de Bernouilli nos da la distribución binomial cuya función de densidad es:

donde:

Tanto el caso 1) como el 2) lo comentamos en el Capítulo IIa.

3) Pero consideremos de nuevo el experimento de lanzar varios tiros libres, pero ahora definamos la siguiente variable aleatoria:

: lanzar tiros libres hasta anotar

Ahora la elección de la función de densidad ya no es la de una distribución binomial, sino geométrica:

Si seguimos con el ejemplo de Luka Doncic y su 71.3% de efectividad en los lanzamientos libres en 2018/19, entonces:

que obviamente coincide con su probabilidad, es decir, que cuando lanza un sólo tiro libre el valor es el de la probabilidad de anotar. Pero. ¿cuál sería la probabilidad de que tuviera que lanzar 3 tiros libres para anotar? O lo que es lo mismo, que fallara los dos primeros y anotara el tercero:

Es decir, que un poco más del 5% de las ocasiones en las que Doncic lance tres tiros libres seguidos, fallará los dos primeros y anotará el tercero.

En el siguiente código de Maxima se especifica la distribución geométrica para n=5, con las probabilidades correspondientes:

kill (all);
tiroslibres(n,x,fi):=fi*(1-fi)^(x-1);
funcion(x):=tiroslibres(5,x,0.713);
unlanzamiento:funcion(1);
doslanzamientos:funcion(2);
treslanzamientos:funcion(3);
cuatrolanzamientos:funcion(4);
cincolanzamientos:funcion(5);
plot2d([funcion(x),[discrete,[[1,unlanzamiento],
[2,doslanzamientos],[3,treslanzamientos],
[4,cuatrolanzamientos], [5,cincolanzamientos]]]], [x,1,5],
[y,0,1], [style, lines, points],[color, green, red],
[xlabel, "Tiros libres lanzados hasta anotar el primero"],
[ylabel, "Función de densidad"], [legend, false]);

En el siguiente post, avanzaremos con una noción más general de variable aleatoria.

Todos los posts relacionados




(#428) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIc)

[MONOTEMA] Seguimos con la tercera parte del segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Tras explicar la estructura básica de un modelo estadístico simple, y lo que es una muestra aleatoria, continuamos avanzando en el desarrollo de conceptos fundamentales.

Experimento aleatorio

Un experimento aleatorio  se define como el mecanismo de incertidumbre que satisface las siguientes condiciones:

a) Todos los posibles distintos resultados son conocidos a priori.

b) En cualquier ensayo el resultado no se conoce a priori, pero existe una discernible regularidad de ocurrencia asociada con esos resultados.

c) Puede ser repetido en idénticas condiciones.

Sobre esta definición vemos que, por ejemplo, cualquier dato que obtengamos de un jugador de baloncesto no es un experimento aleatorio, porque falla en la condición c), es decir, no puede ser repetido en idénticas condiciones, como cuando tiramos una moneda o lanzar un dado. Cuando contamos con los llamados “datos observacionales”, no tenemos un experimento aleatorio, pero eso no indica que no se pueda proponer un modelo estadístico. La distinción con un experimento aleatorio es, sin embargo, preceptiva.

Evento

Un evento es una afirmación en relación a un experimento aleatorio por la cual lo único que importa es su valor de ocurrencia, es decir, si en un particular ensayo ha ocurrido o no. En general, los eventos se forman combinando resultados elementales. Por ejemplo, al tirar 2 monedas el conjunto de resultados es:

donde H es una cara y T es una cruz.

Un evento A podría ser, por ejemplo, obtener al menos una cara:

Como puede apreciarse, un evento es un subconjunto del conjunto de resultados posibles del experimento.

Field

Definimos como “field” (campo) – seguiremos empleando por conveniencia el vocablo inglés-, a una colección  de subconjuntos de S, cuando se satisfacen las siguientes condiciones:

(i)

(ii) Si

(iii) Si  

Esto indica que el campo no está vacío y que es un conjunto cerrado bajo complementación, unión e intersección finitas. Es decir, si A, B son eventos, cualquier evento que surja de la combinación de ambos será un elemento del mismo espacio.

σ-field

Una colección  de subconjuntos de S es un σ-field si satisface:

(i)

(ii) Si

(iii) Si

Que es una generalización de la definición anterior de campo. Cuando un σ-field se define en la recta real se llama un σ-field de Borel.

En consecuencia, hemos definido un espacio de eventos, un concepto fundamental dentro del hilo conductor del desarrollo de Spanos.

Concepto de función

Una función es una relación entre los conjuntos A y B, que satisface la restricción de que para cada  existe un único elemento  tal que . Los conjuntos A y B son, respectivamente, el dominio y el co-dominio de la función .

El conjunto es el grafo de la función.

Una relación R entre los conjuntos A y B es cualquier subconjunto del producto cartesiano , donde es el conjunto de todos los pares ordenados .

Recordemos que Spanos definía una variable aleatoria como una función entre un conjunto de todos los posibles resultados y un conjunto de números de la recta real.

Noción matemática de probabilidad

Es una función  del espacio de eventos hacia números reales entre 0 y 1.

si se satisfacen los siguientes axiomas:

[1]

[2] 

[3]

Espacio probabilístico

Un espacio probabilístico es el compendio de donde e sun conjunto de resultados, e sun espacio de eventos asociados a , y es una función de probabilidad que cumple los axiomas [1]-[3].

Espacio muestral

Un espacio muestral  es una secuencia de n ensayos denotados por  donde  representa el iésimo ensayo del experimento asociado con el espacio de probabilidad producto .

Al conjunto se le llama espacio estadístico simple, un caso particular del más general espacio estadístico .

Este esfuerzo inicial por definir conceptos esenciales, nos ayudará a entender mejor  el Capítulo III.

Todos los posts relacionados




(#427) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIb)

[MONOTEMA] Expondremos aquí la segunda parte del segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Tras explicar la estructura básica de un modelo estadístico simple, continuamos avanzando en el desarrollo de conceptos fundamentales.

Muestra aleatoria

Una  muestra aleatoria asume dos características fundamentales: independencia e idéntica distribución.

Las variables aleatorias son independientes si la probabilidad de ocurrencia de cualquiera de ellas no influye y no ha sido influida por la ocurrencia de cualquier otra del conjunto.

La idéntica distribución se da cuando sus funciones de densidad son iguales, es decir:

Spanos va muy despacio introduciendo todos estos conceptos, que posteriormente serán desarrollados con más detalle.  Por eso, nosotros vamos a ir también de la mano del autor, comentando ejemplos sencillos.

Cojamos de nuevo a Kemba Walker y sus puntos por minutos en los 82 partidos jugados en 2018/19, y vamos a generar 4 muestras aleatorias de 60 observaciones cada una. Para ello hemos empleado el generador de números aleatorios de XLStat, que se puede integrar en Excel. Una vez que se han generado las 4 muestras, las llevamos a Maxima para su gestión gráfica:

kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker1:datatranspose[1];
histogram (
walker1,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker2:datatranspose[2];
histogram (
walker2,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker3:datatranspose[3];
histogram (
walker3,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);
kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt "));
datatranspose:transpose(data);
walker4:datatranspose[4];
histogram (
walker4,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Como se puede apreciar, las distribuciones son prácticamente idénticas. Pero, ¿qué sucedería ahora si escogemos una muestra no aleatoria? Lo comprobamos a continuación seleccionando los primeros y últimos 60 partidos.

Y aquí podemos ver dos fenómenos curiosos. En primer lugar, que la selección no aleatoria de los primero 60 partidos se distribuye de forma similar a las muestras aleatorias anteriores. Y en segundo lugar, que la selección no aleatoria de los últimos 60 partidos refleja un cambio ostensible en la forma de la distribución de datos.

Las consecuencias que tienen las dos últimas figuras las iremos comentando más adelante. Pero ya advertimos un corolario preliminar: Una muestra no aleatoria puede distribuirse igual que una aleatoria o no.

Sin embargo, además, hemos de ser conscientes de que muestras aleatorias de tamaños diferentes pueden diferir en su apariencia. Por ejemplo, si ahora seleccionamos 2 muestras aleatorias de 30 observaciones, obtenemos lo siguiente:

Esa apariencia es diferente de la mostrada cuando se escogían 60 observaciones.

Hay que tener en cuenta de que estamos hablando de distribuciones muestrales, y que en la definición de Spanos no se pretende ir más allá de los conceptos de independencia e idéntica distribución de las variables aleatorias.

Y es aquí donde quizá aparezca la confusión, porque Spanos en la página 33 habla sobre una única variable aleatoria X, mientras que en la página 38 especifica un conjunto de variables aleatorias. En realidad, en el ejemplo del rendimiento del jugador de baloncesto, los puntos por minuto es una única variable aleatoria que se distribuye de una determinada forma. Una muestra aleatoria de esa varibale requiere que todas las observaciones tengan la misma probabilidad de ser seleccionadas. Las diferentes muestras aleatorias que se puedan recoger deberán ser también independientes, y esas muestras serán a su vez variables aleatorias que idealmente se distribuirán de forma equivalente.

Sí, quizá estamos adelantando conceptos, pero es necesario hacerlo para manejarnos en esta complejidad técnica.

Seguiremos con la tercera parte de este segundo capítulo en posteriores posts.

Todos los posts relacionados




(#426) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIa)

[MONOTEMA] Continuamos con el segundo capítulo de: Probability Theory and Statistical Inference, de Aris Spanos. Debido a su extensión, lo dividiremos en partes, en aras de hacer más sencillo el estudio paso a paso.

Capítulo II. Teoría de la probabilidad: Un marco para modelar

La teoría de la probabilidad provee la base fundacional y el marco de referencia para la modelización de datos y la inferencia estadística.

La inferencia estadística es eminentemente inductiva, ya que establece conclusiones de los observables más allá de estos. De este modo, los datos observados son vistos como una realización particular de un mecanismo estocástico que se ha especificado por el modelo estadístico postulado a priori.

Estructura básica de un modelo estadístico simple

Un modelo estadístico tiene 2 componentes:

(1) Modelo de probabilidad:

(2) Modelo de muestreo:  es una muestra aleatoria

Lo que nos dicen estas dos componentes es que el modelo de probabilidad especifica una familia de densidades  definida sobre el rango de valores de la variable aleatoria ; una función de densidad para cada valor del parámetro , que tiene un rango de valores determinado por .

Chebyshev definió de forma simple una variable aleatoria como una variable real que puede asumir diferentes valores con diferentes probabilidades.

Una variable aleatoria es una función de un conjunto de resultados a la recta real, asignando números a esos resultados. Por ejemplo, con 2 dados:

Por tanto, lo que tenemos aquí es una función que relaciona a un conjunto posible de resultados con números de la recta real. En el primer caso, esos números coinciden con la suma de los números posibles al lanzar los dados, y en el segundo, hacer referencia a cuando el resultado es par o impar. En ambos casos, tenemos variables aleatorias. Es obvio deducir que , es la recta real. Y también es sencillo estipular que

Cualquiera que sea la variable aleatoria tiene que cumplir lo siguiente:

Es decir, que la probabilidad de un resultado particular siempre es cero o positiva, y que la suma de todas las probabilidades del conjunto de resultados de la recta real es 1.

Cuando esos números de la recta real son un conjunto infinito, la distribución es continua en lugar de discreta, y entonces:

¿Cómo definiriamos una variable aleatoria X que represente el lanzamiento de un tiro libre en baloncesto? Podría ser de la siguiente forma:

Aquí vemos que el conjunto de resultados posible es , que representan un fallo y un acierto, respectivamente. Ese conjunto se “traslada” a la recta real en forma de dos números, 0 y 1, que representan también el fallo y el acierto. Y a cada uno de esos números se le asigna una probabilidad.

Por ejemplo, el jugador de los Mavs, Luka Doncic, ha tenido un 71.3% de acierto en los tiros libres en la temporada 2018/19. Podríamos entonces estipular que:

En Maxima lo podríamos representar así:

f_0:0.287;
f_1: 0.713;
plot2d([discrete,[[0,f_0],[1,f_1]]], [x,0,1],[y,0,1],
[style, points, points],[color, red, green],
[xlabel, "Resultado: fallo (0), acierto (1)"],
[ylabel, "Función de densidad"],
[legend, false]);

La función de densidad que podríamos definir para el caso anterior sería:

que es la función de densidad de Bernouilli.

Fijémonos en lo que hemos hecho: hemos construido una función de densidad que nos dice en cada momento, es decir, para cada valor de x, la probabilidad de ese valor. Ese valor de probabilidad está en función de un parámetro desconocido, cuyo rango de valores coincide con el rango de valores de probabilidad, pero no siempre tiene que ser así, como veremos más adelante.

Como bien indica Spanos, la repetición de n ensayos de Bernouilli nos da la distribución binomial cuya función de densidad es:

donde:

Así, podríamos calcular, por ejemplo, la probabilidad de que Luka Doncic anotara los 3 tiros libres que lanza cuando le hacen una falta personal en un triple:

Pero aquí ya hemos cambiado el escenario, ya no tenemos la misma variable aleatoria que antes, sino la siguiente:

El conjunto de resultados es 8 porque son las variaciones con repetición de 2 elementos tomados de 3 en tres.

Por tanto:

Es decir, la probabilidad de que Luka Doncic anote los 3 lanzamientos libres es del 36.2%.

Obviamente, todos estos análisis los hemos realizado suponiendo independencia en los tiros libres, algo que la investigación en baloncesto nos dice que es cuestionable.

Podemos escribir una función en Maxima para representar esos valores de la distribución binomial, que recordemos que es discreta, pero hemos añadido una curva para que se aprecie la tendencia.

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
funcion(x):=tiroslibres(3,x,0.713);
ceroaciertos:funcion(0);
unacierto:funcion(1);
dosaciertos:funcion(2);
tresaciertos:funcion(3);
plot2d([funcion(x),[discrete,[[0,ceroaciertos],
[1,unacierto],[2,dosaciertos],
[3,tresaciertos]]]], [x,0,3],[y,0,1],
[style, lines, points],[color, green, red],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, false]);

Como se puede ver, lo más probable es que Doncic anote 2 de los 3 tiros libres. Si incrementamos el número de ensayos, la distribución se aproxima a una Normal, algo que también veremos más adelante, donde el máximo de probabilidad coincide con el valor del parámetro .

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
funcion(x):=tiroslibres(100,x,0.713);
setentayunaciertos:funcion(71);
plot2d([funcion(x),[discrete,[
[71,setentayunaciertos]]]], [x,0,100],[y,0,0.1],
[style, lines, points],[color, green, red],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, false]);

Podemos ahora comparar esas curvas de probabilidad entre diferentes jugadores, que tienen habilidades dispares. El porcentaje de Doncic es discreto para un jugador de ese nivel, el de Anthony Davis es bueno (79.4%) y el de James Harden es muy bueno (87.9%).

A la hora de encarar una serie de 3 tiros libres:

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)*fi^x*(1-fi)^(n-x);
n:3;
Doncic(x):=tiroslibres(n,x,0.713);
Davis(x):=tiroslibres(n,x,0.794);
Harden(x):=tiroslibres(n,x,0.879);
plot2d([Doncic(x),Davis(x),Harden(x)], [x,0,n],[y,0,1],
[style, lines,lines, lines],[color, green, blue, orange],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, "Doncic", "Davis", "Harden"]);

Tanto Davis como Harden tienen más probabilidad de encestar los 3 que de encestar 2, no así, como hemos dicho, Doncic.

Y si miramos ahora a una serie de 100 tiros libres, se puede apreciar mejor las curvas de probabilidad, que reflejan la habilidad de estos jugadores.

kill (all);
tiroslibres(n,x,fi):=binomial(n,x)fi^x(1-fi)^(n-x);
n:100;
Doncic(x):=tiroslibres(n,x,0.713);
Davis(x):=tiroslibres(n,x,0.794);
Harden(x):=tiroslibres(n,x,0.879);
plot2d([Doncic(x),Davis(x),Harden(x)], [x,0,n],[y,0,0.15],
[style, lines,lines, lines],[color, green, blue, orange],
[xlabel, "Resultado (aciertos)"],[ylabel, "Función de densidad"],
[legend, "Doncic", "Davis", "Harden"]);

Continuaremos con la segunda parte de este capítulo II en próximos posts.

Todos los posts relacionados




(#424) TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (I)

[MONOTEMA] Durante los próximos meses vamos a ir comentando algunos de los puntos más destacados de una obra extraordinaria: Probability Theory and Statistical Inference, de Aris Spanos, un libro que debería ser de obligada lectura para todos los estudiantes e investigadores en ciencias.

Lo haremos con el máximo de los respetos, y con el reconocimiento de que la interpretación aquí mostrada no hará justifica al excelso contenido del libro. Sin embargo, la intención es que ayude a estudiantes a introducirse en el mundo de la investigación, así como diseminar los postulados de este gran investigador.

La idea es ir realizando un pequeño post por capítulo, intentando mostrar algunos ejemplos llevados a campos relacionados con mi actividad investigadora.

Capítulo I. Una introducción a la modelización empírica

Spanos define la modelización empírica como una descripción parsimoniosa de fenómenos estocásticos observables, empleando modelos estadísticos.

Un modelo estadístico pretende capturar la información estadística sistemática. Por tanto, es importante ya darnos cuenta que modelizar implica proponer una forma de plantear relaciones entre variables que expliquen cómo se han generado los datos, donde el interés reside en el componente sistemático, es decir, en aquello que está fuera de la aleatoriedad.

Los modelos empíricos envuelven un amplio espectro de procedimientos inter relacionados:

a) Especificación: Elección del modelo estadístico.

b) Estimación: Estimación de los parámetros del modelo.

c) Test de mala especificación: Evaluación de la validez de las asunciones probabilísticas postuladas en el modelo.

d) Re-especificación: Elección alternativa de otro modelo estadístico.

Como muy bien comenta el autor, estas facetas distinguen a los datos observacionales de los experimentales, donde en este último caso el principal objetivo es la estimación, siendo las facetas a) y d) constitutivas del diseño experimental, y donde c) juega un papel más secundario.

Algunas definiciones importantes:

  • Fenómeno estocástico: Aquel en que los datos observados exhiben patrones de regularidad inciertos (emplea la palabra “chance”).
  • “Chance”: La incertidumbre inherente a la ocurrencia de un determinado resultado.
  • Regularidad: Presencia de orden relativo a la ocurrencia de muchos de esos resultados. Es diferente al concepto de aleatoriedad.

Spanos emplea el ejemplo de lanzar dos dados, con el fin de tener una primeración noción intuitiva de conceptos fundamentales.

Vamos a emplear Maxima para dibujar un histograma de este ejemplo:

numeros_2dados:[2,  3,  4,  5,  6,  7,  
3, 4, 5, 6, 7, 8, 4, 5, 6, 7,
8, 9, 5, 6, 7, 8, 9, 10, 6, 7,
8, 9, 10, 11, 7, 8, 9, 10, 11, 12]$
histogram (
numeros_2dados,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Y ahora de nuevo usamos Maxima para dibujar los resultados de lanzar 2 dados 100 veces, en un gráfico que Spanos denomina “t-plot“:

resultados: makelist(random(11)+2,100);
plot2d([[discrete, resultados],
[discrete,resultados]],
[x,0,100],[y,2,12],[style, points, lines],
[color, red, green],[xlabel, "Número de lanzamiento"],
[ylabel, "Suma de los 2 dados"], [legend, false]);

He aquí los 3 conceptos que debemos comprender a la perfección:

[1] Distribución: El histograma desprende una distribución determinada de los datos empíricos, en este caso con mayor concentración en el centro y menos en los extremos.

[2] Independencia: El resultado de un lanzamiento no influye en el siguiente, tal y como muestra el t-plot.

[3] Homogeneidad: Las probabilidades asociadas con los diferentes resultados permanecen idénticas para todos los ensayos realizados.

Veamos un ejemplo práctico con datos reales. Cojamos los 82 partidos jugados por Kemba Walker en la temporada regular de la NBA 2018/19, y realicemos los mismos gráficos:

data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
walker:datatranspose;
histogram (
walker,
nclasses=11,
frequency=density,
xlabel="Espacio muestral",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

plot2d([[discrete,datatranspose[1]], 
[discrete,datatranspose[1]]], [x,0,82],[y,0,1.5],
[style, points, lines],[color, red, green],
[xlabel, "Puntos/minuto"],[ylabel, "Número de partido jugado"],
[legend, false]);

Aquí tenemos ya un poco más de dificultad para interpretar los gráficos, aunque disponemos de los 3 mismos conceptos bien representados:

[1] Distribución: Claramente hay una distribución centrada en los valores medios, aunque no con una apariencia tan “Normal” como en un fenómeno aleatorio:

[2] Independencia: No está tan claro que hay total independencia, parece que puede haber la existencia de rachas, de algún componente sistemático que afecte el rendimiento.

[3] Homogeneidad: Tampoco es diáfano que las probabilidades asociadas a los diferentes resultados se mantengan constantes.

Esto es una mera ilustración de que, para cada conjunto de datos que tengamos, necesitamos estudiar detenidamente varios aspectos de los mismos que conformarán nuestras asunciones probabilísticas. Los gráficos son una gran ayuda, pero también habremos de ayudarnos de test que nos asistan cuando, como en el caso de los datos de Kemba Walker, no lo tengamos tan claro.

El siguiente paso es trasladar los patrones de regularidad con incertidumbre en información estadística con un componente sistemático. Para ello, prestemos atención a la siguiente definición:

Un modelo estadístico es un conjunto de asunciones probabilísticas compatibles que provienen de tres categorías: [D] distribución, [M] dependencia, [H] heterogeneidad.

Obviamente, coinciden con las 3 facetas con las que intepretábamos los datos anteriores.

Spanos incide en que la modelización empírica no trata sobre elegir óptimos estimadores, sino sobre escoger modelos estadísticos adecuados. Así, distingue entre la información estadística y la teoría que hay detrás del modelo. De esta forma, la teoría de la probabilidad funciona como un lenguaje neutral independiente de la teoría económica, psicológica, etc., que hay detrás del modelo. La validez del modelo descansa primeramente sobre la validez de las asunciones probabilísticas.

Por ello, este proceso de análisis es deductivo-inductivo, en el sentido en que el razonamiento toma la forma de modus ponens:

si p, entonces q

Si ciertas premsas son asumidas, ciertas conclusiones necesariamente se obtienen. Si las asunciones probabilísticas no se cumplen, se interpreta como que hay un componente sistemático añadido que hay que tener en cuenta, por lo que hay que re-especificar el modelo.

De nuevo enfatiza la distinción entre un modelo estadístico y un modelo teórico; el modelo estadístico es un testigo sin prejuicios acerca de la validez de las asunciones, sobre cuyo testimonio se evalúa la idoneidad empírica del modelo teórico. Así, ninguna teoría, por sosfisticada que sea, puede compensar un modelo estadístico mal especificado.

Spanos introduce la siguiente notación:

  • Datos transversales:

donde k, representa individuos, empresas, etc.

  • Datos longitudinales:

donde t es el tiempo.

  • Datos de panel:

Es importante señalar que los datos transversales no tienen un orden natural temporal, pero sí que lo pueden tener a nivel espacial o de cualquier otra dimensión:

Para mostar esto gráficamente, podemos emplear los puntos obtenidos por los jugadores de los Warriors en el segundo partido de la final de la NBA 2019.

kill (all);
data:read_matrix(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
plot2d([[discrete,datatranspose[1]],
[discrete,datatranspose[1]],
[discrete,datatranspose[2]],
[discrete,datatranspose[2]]],
[x,1,12],[y,0,30],
[style, points, lines, points, lines],
[color, red, green, blue, orange],
[xlabel, "Jugador"],[ylabel, "Puntos"],
[legend, false]);

Los puntos rojos y línea verde representan los datos ordenados alfabéticamente, pero los datos con puntos azules y línea naranja lo hacen en función creciente de los minutos jugados. Por tanto, aunque estos datos sean claramente transversales porque se han obtenido como una foto instantánea al terminar el partido, existe un ordenamiento en (al menos) una dimensión.

Seguiremos próximamente con el Capítulo II.

Todos los posts relacionados