(#456). LUKA DONCIC DEBIÓ SER EL JUGADOR MÁS MEJORADO (MIP)

[MONOTEMA]  Brandon Ingram ha sido elegido el jugador más mejorado (MIP) de la NBA en la temporada 2019/20, por encima de Bam Adebayo y de Luka Doncic. Y lo ha hecho, además, con una victoria amplia.

Sin embargo, la sensación que tienen muchos especialistas y aficionados al baloncesto es que esa distinción claramente debió ser para Doncic. El jugador de los Mavs ha realizado una excelente temporada, y antes del parón por la crisis sanitaria sonaba incluso entre los candidatos a MVP.

Desde el punto de vista meramente cuantitativo, según lo que indica el índice Player Total Contribution (PTC), la cuestión no ofrece discusión; el esloveno ha sido, de largo, el jugador más mejorado de la NBA.

Curva de dificultad no lineal

Mi propuesta de análisis para evaluar la mejora de un jugador se basa en el índice PTC por minuto jugado (PTC/MP), que provee una comparativa ajustada al tiempo en la cancha.

La explicación técnica la publiqué en este artículo, donde construyo una curva de dificultad no lineal basada en el histograma de productividades de la liga. A partir de esa curva se calcula un área de dificultad (DA), que es el indicador final que permite comparar la mejora entre jugadores.

La idea, de forma muy general, es considerar que las mejoras sobre rendimientos altos son más meritorias que las mejoras sobre rendimientos bajos. En un rango de [0,1], es mucho más sencillo mejorar de 0.2 a 0.6 que de 0.5 a 0.9. En ambos casos, la diferencia bruta es la misma (0.4), incluso en el primer caso la diferencia relativa es mayor (200% frente a 80%). Sin embargo, en el primer caso el jugador mejora desde un nivel de rendimiento muy bajo hasta llegar a la parte media de la liga, mientras que en el segundo caso mejora desde la parte media hasta ser una super estrella. Es evidente que es mucho más complejo (y por ende más meritorio) ese segundo caso.

Bajo estas premisas, y de nuevo remitiendo a la explicación técnica del artículo se puede realizar ese análisis, como se muestra en la siguiente figura, donde incluyo algunos de los nombres que durante toda la temporada han sonado como jugadores que han avanzado notablemente en su rendimiento.

Como puede observarse Doncic, con mucha ventaja, lidera el ranking de mejora, seguido por Trae Young. Ingram, por su parte, ocupa el tercer puesto. Destaca también la mejora de Antetokounmpo, con unos números de PTC/MP auténticamente siderales, nunca visto antes en la historia de la liga. La siguiente tabla muestra los datos de la figura:

Tabla 1. Productividad por minuto (PTC/MP) en ambas temporadas e indicador de mejora (DA)

  2018/19 2019/20 DA Incremento
Luka Doncic 0,573 0,780 0,193 36,13%
Trae Young 0,492 0,669 0,151 35,98%
Brandon Ingram 0,439 0,583 0,107 32,80%
Johnathan Isaac 0,368 0,495 0,066 34,51%
Giannis Antetokounmpo 0,937 1,000 0,063 6,72%
Andrew Wiggins 0,372 0,488 0,059 31,18%
Jaylen Brown 0,413 0,498 0,051 20,58%
Bam Adebayo 0,533 0,594 0,051 11,44%
Devonte Graham 0,260 0,401 0,043 54,23%
Davis Bertans 0,363 0,453 0,040 24,76%
Aron Baynes 0,448 0,493 0,030 10,04%
Fred VanVleet 0,351 0,429 0,030 22,22%
Spencer Dinwiddie 0,459 0,499 0,027 8,64%

Luka Doncic tiena un DA de 0.193, muy superior al del resto de jugadores, y casi el doble que el de Ingram. El jugador esloveno declaró que debía ser Devonte Graham el que optara también al premio, pero el exterior de los Hornets, pese a haber mejorado un 54.23%, lo ha hecho desde unos niveles muy bajos, por lo que el “mérito” de su mejora no es comparable al de Doncic, Young o Ingram, por ejemplo.

He escrito, además, un código sencillo en Maxima para computar el índice de mejora (DA), dependiendo de los valores del año anterior (a) y corriente (b). Lo único que hay que hacer es poner el valor de PTC/MP donde se indica “INSERTAR VALOR”, y el programa calcula automáticamente el resultado de las integrales.

 f1:1-0.9325*x; f2:%e^(2.95-8.55*x);
 a: INSERTAR VALOR;
 b: INSERTAR VALOR;
 DA1: integrate(1-f1,x,a,b), numer;
 DA2: integrate(1-f1,x,a,0.4)+
 integrate(1-f2,x,0.4,b),numer;
 DA3: integrate(1-f2,x,a,b),
 numer;
 resultados: if a<0.4 and b<0.4 then DA1  elseif a<0.4 and b>=0.4  then DA2
 else DA3;
 print: "La mejora es" (resultados);

Quizá se vea más claro si normalizados el DA para que su rango sea del 0% al 100% (es simplemente dividir el DA calculado anteriormente por el área máxima bajo la curva. No obstante se podrían dar teóricamente valores mayores del 100% si se parte de rendimiento negativo – hiere más que ayuda al equipo-). La siguiente figura muestra esos valores normalizados.

Conclusión

Desde el punto de vista cuantitativo, y admitiendo las debilidades de cualquier métrica basada únicamente en box-score (aunque también considerando las potencialidades del índice PTC), Doncic debió ser elegido, claramente, jugador más mejorado de la NBA en la temporada 2019/20.

Post relacionados




(#454). NO LINEALIDAD Y MASCARILLAS

Uno de los objetivos de los primeros días de clase en mis asignaturas de toma de decisiones en marketing es que los alumnos entiendan la dificultad de los escenarios no lineales, tan característicos de la gran mayoría de fenómenos que se dan en la realidad. En general, los humanos tenemos muchos problemas para manejar nuestro pensamiento en este tipo de escenarios, por eso los estudiantes deben poner especial énfasis en comprenderlos.

En este artículo vamos a realizar varias simulaciones relacionadas con la desgracia que nos ha tocado vivir, el coronavirus que provoca la COVID-19, para mostrar con fines meramente didácticos la importancia de aplicar las herramientas del pensamiento y análisis no lineal. Es importante resaltar que el ejemplo que vamos a comentar es simplemente eso, un ejemplo, y que no tiene la entidad de un estudio científico, ya que es demasiado simple e incompleto. Sin embargo, ofrece unos resultados que, al menos, estimulan el pensamiento crítico.

Infectados en España

En la siguiente figura se muestran los infectados en España hasta el 26 de marzo, intervalo de tiempo donde el crecimiento era exponencial .

Como se puede ver, podemos ajustar la curva a través de un polinomio de orden 3 donde y representa la población de infectados y t el tiempo en días. Sin embargo, en aras de facilitar nuestro razonamiento y el análisis posterior, podemos realizar una aproximación más burda a la curva usando el siguiente razonamiento:

Lo que nos dice la expresión anterior es que el cambio temporal en el número infectados  es proporcional a la población que hay en el momento anterior al diferencial de tiempo, con un factor de 33.55%. Esto es algo que se aproxima bastantea la realidad, ya que en esos primeros 33 días el crecimiento del número de infectados estaba en torno al 42% en promedio.

No nos debemos preocupar demasiado por perder algo de exactitud porque los datos tampoco son perfectos, y hay retrasos en los reportes y otros factores que afectan. Por ejemplo, entre los días 12 y 13 el crecimiento fue solo del 6%, mientras que entre los días 14 y 15 fue del 91%.

Si discretizamos el tiempo, la expresión anterior es equivalente a esta (para cambios en t muy pequeños):

Es decir:

No obstante, seguiremos manteniendo el enfoque de continuidad para los análisis. De este modo, hay que resolverla ecuación diferencial para conocer la trayectoria del número de infectados. Resolviendo esa ecuación diferencial (ver este post como ayuda), obtenemos que:

El número de personas infectadas el día 33 era de 64059, mientras que la aproximación exponencial nos reporta una cifra de 64312.

Mascarillas

Durante muchas semanas, tanto la OMS como algunos responsables gubernamentales no consideraron pertinente recomendar el uso de mascarillas, desoyendo las indicaciones de científicos como, por ejemplo, Eric Feigl-Ding.

Las mascarillas no son perfectas, no proveen una protección total, pero incluso las más sencillas pueden tener porcentajes de efectividad en la contención. Si estipulamos un rango de efectividad entre el 0 ya el 100%, entonces si el 100% de la población no lleva habitualmente mascarilla (aquí se excluye obviamente el personal sanitario en el trato de enfermos), su protección es del 0%.

De este modo, podemos simular varios escenarios en los cuales se pasa de que nadie lleve mascarilla, a que diferentes porcentajes de la población las lleven (10%, 20% y 30%, respectivamente). Para aquellos que llevan mascarilla hemos estipulado dos niveles de protección (20% y 50%), en función del tipo de mascarilla y su comportamiento de riesgo. Los datos se muestran en la siguiente figura.

El siguiente paso ahora es modificar la ecuación diferencial para tener en cuenta una nueva variables que considere el uso de mascarillas.

donde es el valor promedio que describe el uso de mascarillas y el riesgo asociado a ellas.

donde es la frecuencia relativa de personas que llevan mascarilla normalizada en la escala [0,1], lo que quiere decir que si el 100% no lleva mascarilla le correspondería un 1. Por su parte, es el nivel de protección de cada mascarilla, también normalizado en una escala [0,1].

Hay que tener cuidado en este punto, porque ahora la ecuación de la trayectoria es una exponencial modificada con la nueva especificación:

De este modo si el 100% de personas no lleva mascarilla:

que es nuestra ecuación anterior de partida.

Y si el 100% de personas llevara mascarilla con un nivel de protección del 100% (algo imposible), entonces:

con lo que el número de infectados sería constante, es decir, no habría nuevos infectados.

Primer análisis de escenarios

Podemos comenzar un primer análisis con los 4 escenarios descritos en la figura que representa la distribución de las mascarillas. El primero de ellos, donde el 100% no las lleva (excepto el personal sanitario), ya lo tenemos. El objetivo es ahora estimar el número de infectados cuando una parte pequeña de la población lleva mascarilla. Los resultados se muestran a continuación. 

Como se puede apreciar, pequeños cambios en la distribución de uso de mascarillas producen enormes cambios en el número de infectados. Fijémonos en el escenario en que 90% no lleva mascarilla, un 5% lleva mascarillas que protegen un 20%, y un 5% lleva mascarillas que protegen un 50%. Tan sólo ese pequeño cambio produce un descenso del 37.8% en el número de infectados pasando a ser 40018. El descenso es del 75% en el último escenario, en el que el 70% de la gente sigue sin llevar mascarillas, pero el 15% lleva mascarillas de protección 20% y el 15% restante lleva mascarillas de protección 50%.

Riesgo simétrico

Hasta ahora hemos asumido que el riesgo de contagiarse o contagiar es constante para cada nivel de protección. Sin embargo, esta situación puede no ser correcta.

Imaginemos que el 100% de la población lleva mascarillas que protegen el 50%, entonces:

Pero ahora imaginemos que el 50% no lleva mascarilla y el otro 50% lleva mascarillas con la máxima protección (100%), entonces: 

El valor promedio es el mismo cuando la situación en cuanto a contagios podría ser muy diferente. Otras formas de riesgo simétrico podrían ser no lineales, por ejemplo, en modo de U-invertida. Así, esa función no lineal actuaría como una función de pesos para ponderar:

Como función de pesos podemos proponer la siguiente:

que da el máximo peso a los casos extremos, es decir, la máxima influencia sobre los contagios se produce cuando ninguno lleva mascarilla o cuando todos la llevan.

Dejamos como ejercicio para los estudiantes más curiosos el calcular ahora la trayectoria ante los 4 escenarios propuestos.

Riesgo asimétrico

El desafío ahora es concebir que el riesgo es asimétrico, una función convexa en forma de J que otorgue mayor peso a los casos en los que la protección es mayor a partir de cierto umbral. Podemos proponer la siguiente función:

Y ahora podemos a volver a realizar el análisis de escenarios, obteniendo que para el caso del escenario 2 (10% usan mascarilla), los infectados se habrían reducido un 23.4%; para el escenario 3 (20% usan mascarilla), los infectados se habrían reducido un 40.3%; y para el escenario 4 (30% usan mascarilla), lo infectados se habrían reducido un 53.5%.

Evidentemente, podemos simular un escenario que reflejara mucho más el compromiso de gobernantes y ciudadanos con el uso de mascarillas, haciendo que el 50% llevara mascarilla con una protección del 50%. Esto habría reducido los infectados un 83%.

Conclusión

Este artículo tiene que interpretarse como un mero ejercicio con fines de didácticos para estudiantes universitarios, y nunca como un estudio científico cuyas conclusiones sean robustas, ya que lo que se plantea es una gran simplificación de la situación, y se dejan muchas variables fuera.

La idea es hacer ver a los estudiantes que cuando se manejan ecuaciones no lineales nuestra mente tiene dificultades en inferir qué va a suceder, a no ser que nos ayudemos de herramientas matemáticas.

Lo que hemos visto es que incluso con pequeñas acciones como el incremento débil del uso de mascarillas justo cuando aparecieron los primeros casos, se podría haber reducido considerablemente el número de infectados, siempre dentro de las aproximaciones y asunciones que hemos realizado.

Sin embargo, insistimos en que lo importante de este artículo es motivar a los estudiantes a que profundicen en las dinámicas no lineales de los fenómenos que nos rodean, y cómo las asimetrías pueden afectar a los resultados.

Posts relacionados




(#446) RENDIMIENTO EN BASE A VICTORIAS PRODUCIDAS POR LOS JUGADORES

[MONOTEMA] El índice PTC se construye en base a los factores que determinan la producción (FDP) en cada partido. Pasar de FDP a PTC se hace mediante una relación de equivalencia, por lo que las unidades de PTC no tienen sentido en sí mismas, pero sí a nivel relativo, por supuesto, es decir, para comparar jugadores.

En cualquier caso, y quizá perdiendo un poco de rigor, pero ganando facilidad interpretativa, hay una forma de convertir los valores de PTC a victorias producidas.

Para ello, hemos tomado los datos de PTC de los equipos de la NBA desde la temporada 1996/97 hasta la 2018/19, junto con el número de victorias. A través de una regresión lineal simple podemos relacionar ambas variables:

Los resultados son:

Es cierto que tenemos una varianza explicada no demasiado buena, pero aquí el interés se centra principalmente en la predicción de las victorias, y menos en la bondad del modelo. Es decir, con lo que tenemos, que es un índice PTC formado por equivalencia, por lo que el teóricamente relacionado con el diferencial de cada partido es el FDP, hemos de arreglárnoslas para realizar una predicción medianamente aceptable. Y esto es lo que acabamos de hacer.

En mi opinión, y para salvar algunos problemas de unidades e interpretabilidad, lo mejor es construir esos valores de victorias producidas con referencia a la media de los jugadores de la NBA (o de las ligas donde se aplique). De este modo, ya no vamos a tener problemas con el intercept  durante cada momento de la temporada (haría que las victorias producidas estuvieran en negativo durante muchos meses).

Por tanto, ya estamos en condiciones de presentar el nuevo índice de victorias producidas, al que podemos llamar PTCwins, y que se calcula de la manera siguiente, para cada jugador :

Y esto es lo que vamos a ir mostrando cada semana (más o menos) tanto para la NBA como para la Liga ACB.

En consecuencia, el PTCwins para cada jugador se interpretaría como el número de victorias estimadas producidas en relación a la media de la liga. Un PTCwins positivo indicaría que el jugador produce más victorias que la media, y PTCwins negativo sugeriría que produce menos victorias que el jugador promedio.

Todos los posts relacionados




(#445) LOS JUGADORES MÁS PRODUCTIVOS DE LA ACB 2019/20

[MONOTEMA] Importante: toda la información se actualizará en mi nueva web:  www.playertotalcontribution.com

Tal y como estamos haciendo con la NBA, realizamos un seguimiento de las productividad de los jugadores de la Liga ACB, empleando como siempre el índice PTC (Player Total Contribution), que creé a comienzos de 2019, y cuya génesis puede consultarse aquí.

Puedes ordenar de mayor a menor las productividades en la columna correspondiente. El mínimo para aparecer en la tabla es haber jugado al menos un tercio de los partidos de la temporada (en cada momento de la misma) y un 12.7% de los minutos.

Por último, estos datos no tienen en cuenta el momento del partido en el que se realizan las acciones (el valor de cada acción en función del resultado, y las posesiones restantes), cuyo método de cálculo puede encontrarse aquí.

Presento, asimismo, el PTC al lado de la Valoración ACB (que es un índice arbitrario y sin sustento teórico y empírico), y el diferencial entre ambas, para dar una idea de lo sobrevalorados o infravalorados que están los rendimientos si se emplea la Valoración ACB. Sería un paso importante que la ACB dejara de emplear la Valoración y utilizara un índice de rendimiento más robusto (obviamente desde aquí le invito a que use PTC).

Actualizado 20/11/19 

[table “4” not found /]

Todos los posts relacionados




(#444). ¿ES LUKA DONCIC UNA ESTRELLA DE LA NBA? ANÁLISIS DE PRODUCTIVIDAD COMPARADA

[MONOTEMA] Importante: toda la información se actualizará en mi nueva web:  www.playertotalcontribution.com

En esta página vamos a ir incorporando los datos de productividad (PTC/MP) de Luka Doncic comparado con otras estrellas de la NBA. El objetivo es analizar al jugador esloveno, tomando como referencia otros jugadores consagrados y futuras estrellas.

La elección de los jugadores a comparar es subjetiva, en base a gustos personales y relaciones interesantes.

Iremos actualizando los datos mes a mes. La lista completa de jugadores con la productividad agregada puede consultarse aquí.

Actualizado 21/11/19 



Todos los posts relacionados




(#443). LOS JUGADORES MÁS PRODUCTIVOS DE LA NBA 2019/20

[MONOTEMA] Importante: toda la información se actualizará en mi nueva web:  www.playertotalcontribution.com

Mantendré actualizada cada semana (más o menos) la productividad por partido de los jugadores de la NBA. Para ello emplearé el índice PTC (Player Total Contribution), que creé a comienzos de 2019, y cuya génesis puede consultarse aquí.

Puedes ordenar de mayor a menor las productividades en la columna correspondiente. El mínimo para aparecer en la tabla es haber jugado al menos un tercio de los partidos de la temporada (en cada momento de la misma). Primero se muestra el Top-10.

También hay una estimación de las victorias producidas en relación al jugador promedio (PTCwp), cuya justificación está aquí. Recordad que es una estimación para dar algo de sentido a las unidades de PTC, pero hay una imprecisión a tener en cuenta, por lo que es sólo una aproximación.  Cuantos más partidos se juegue mayor será el PTCwp, ya que es un índice que mide las victorias producidas totales.

Debajo, además, se pueden consultar dos gráficos de los equipos; En el primero de ellos se refleja la distribución de las productividades entre los jugadores, mientras que en el segundo se muestra la concentración de productividades dentro  de cada equipo. La idea es aproximarnos a la importancia que tiene cada jugador dentro de su equipo.

Por último, estos datos no tienen en cuenta el momento del partido en el que se realizan las acciones (el valor de cada acción en función del resultado, y las posesiones restantes), cuyo método de cálculo puede encontrarse aquí. Y es evidente, que un índice numérico no va a reflejar todos los intangibles, aunque es cierto que la génesis del PTC explica más de un 80% de variación del diferencial de puntos de los partidos, sólo con las variables del box-score. De este modo, es una aproximación muy a tener en cuenta.

Actualizado 20/11/19 

[table “3” not found /]





En cuanto al jugador más mejorado, aquí mostramos algunos candidatos:

Todos los posts relacionados




(#438).TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIe)

[MONOTEMA]  Avanzamos con el quinto apartado del tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos.

Parámetros y momentos

Además del histograma de la distribución de datos observados, también disponemos de ciertos números que caracterizan la distribución como la media o la varianza. Esos valores numéricos están relacionados con los momentos de la distribución, que son esperanzas matemáticas de ciertas funciones de la variable aleatoria , genéricamente denotadas por .

Si escogemos diferentes funciones  obtendremos diferentes momentos de la distribución. Por ejemplo:

Media 

Para variables continuas:

Para variables discretas:

Varianza

Una forma conveniente de calcular los momentos de una distribución es a través de la función generatriz de momentos (mgf), donde

Para variables aleatorias discretas las integrales se vuelven sumatorios.

Por ejemplo, para una variable aleatoria X que sigue una distribución de Poisson:

Dado que: 

Entonces:

A partir de los momentos de la distribución se puede estudiar la asimetría y el apuntamiento. De este modo, podemos caracterizar la forma de la distribución a partir de los momentos.

Todos los posts relacionados




(#437). TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIId)

[MONOTEMA] En esta cuarta entrega del tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos, seguimos profundizando en la relación entre espacio de probabilidad y modelo de probabilidad.

Cuando las probabilidades son funciones conocidas de ciertos parámetros desconocidos , entonces podemos transformar el espacio probabilístico en un modelo de probabilidad definido por:

donde  es una colección de funciones de densidad que dependen de un conjunto de parámetros  en el espacio paramétrico .

Podríamos usar también la función de distribución:

Pongamos un ejemplo usando la distribución Beta como modelo de probabilidad:

 

Podemos analizar el porcentaje de acierto en los tiros libres de los jugadores NBA hasta 2015 (el acumulado en sus respectivas carreras), para aquellos que hubieran lanzado al menos 30 tiros libres.

El histograma de la distribución es el siguiente:

data:read_list(file_search("RUTADELARCHIVO.txt"));
datatranspose:transpose(data);
estatura:datatranspose;
histogram (
estatura,
nclasses=15,
frequency=density,
xlabel="Espacio muestral. Porcentaje acierto tiros libres",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Para ello nos ayudamos de nuevo de Stata 13.0, y estipulamos una distribución Beta de parámetros (18, 7.5). 

Es decir, para la modelización empírica debemos postular a priori una familia de densidades que refleje el mecanismo estocástico que da origen a los datos observados. Para ello, tiene espacial relevancia el rango de valores de la variable aleatoria.

Estamos todavía al comienzo, pero ya hemos intuido cómo se plantea un modelo de probabilidad.

Todos los posts relacionados




(#436). TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIc)

[MONOTEMA]  Continuamos con el tercer apartado del tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos.

Si vemos  como sólo una función del punto final del intervalo , entonces podemos definir la distribución acumulada (cdf):

Ahora sí hemos generado una función que relaciona el número real asignado a cada posible evento con su probabilidad de ocurrencia. Pero en este caso es la probabilidad acumulada.

Para el caso simple (discreto) tenemos la función de densidad:

Por tanto, los espacios probabilísticos pueden simplificarse en el caso de variables aleatorias discretas y continuas a los siguientes:

Spanos se plantea en este punto si se pueden definir funciones de densidad para variables continuas y funciones de distribución para variables discretas, y la respuesta es que sí.

La estatura de los jugadores de la NBA se puede considerar como una variable continua. Desde el inicio de la NBA hasta el año 2015, hay 3984 jugadores cuya estatura se muestra en este archivo.

El histograma de la distribución es el siguiente:

data:read_list(file_search("RUTADELARCHIVO.txt "));
datatranspose:transpose(data);
estatura:datatranspose;
histogram (
estatura,
nclasses=15,
frequency=density,
xlabel="Espacio muestral. Estatura jugadores NBA (cm)",
ylabel="Densidad de probabilidad",
fill_color=green,
fill_density=0.5);

Es una distribución que se aproxima a una Normal, pero que no sabemos realmente si lo es. Recordemos que una distribución Normal tiene como función de densidad:

De este modo, podemos tomar como media y desviación típica la de la muestra, como una estimación de los parámetros poblacionales.

El resultado, tras emplear Stata 13.0, es el mostrado en el gráfico siguiente:

Sin embargo, otras distribuciones también podrían ajustarse a los datos. Por ejemplo, la distribución Weibull:

En Maxima podemos representar las 3 distribuciones, Normal, Weibull y logística, de la siguiente forma:

load(distrib);
plot2d([pdf_weibull(x,18,198.2),pdf_logistic(x,198.2,5.5),
pdf_normal (x, 198.2, 9.32)],
[x,160,230],[y,0,0.05],
[xlabel, "Espacio muestral. Estatura jugadores NBA (cm)"],
[ylabel, "Densidad de probabilidad"],
[legend, "Weibull", "Logistica", "Normal"]);

Las 3 distribuciones consideradas, estipulan que . Esto es un elemento a tener en cuenta porque en este caso tenemos  una distribución de estatura cuyos valores no pueden ser nunca cero o menor que cero. Por tanto, . Desde el punto de vista práctico quizá para este ejemplo no tenga demasiada importancia, pero a nivel didáctico nos sirve para justifica la búsqueda de otra función de densidad que sólo permita valores positivos.

Una opción es emplear la función chi-cuadrado:

 es la función Gamma.

Así, para r=198, y con la ayuda de Stata 13.0, vemos la distribución chi-cuadrado en azul.

Como se puede apreciar, el ajuste no es tan bueno como la distribución Normal, aunque pese a que la Normal tenga un rango de valores teórico fuera del permitido por este caso.

En definitiva, hemos visto que podemos simplificar los espacios probabilísticos empleando funciones de densidad y de distribución. Así, con la adecuada elección de la función de densidad podemos relacionar los eventos con su probabilidad de ocurrencia, teniendo en cuenta que en distribuciones continuas lo pertinente es analizar la probabilidad entre 2 puntos de la distribución.

Todos los posts relacionados




(#435).TEORÍA DE PROBABILIDAD E INFERENCIA ESTADÍSTICA SEGÚN ARIS SPANOS (IIIb)

[MONOTEMA] Avanzamos en el tercer capítulo de Probability Theory and Statistical Inference, de Aris Spanos, dando una noción general de variable aleatoria:

La variable aleatoria simple es un caso particular contenido en esta definición general. El espacio de eventos discreto está contenido en este continuo.

Spanos define la pre-imagen  de la variable aleatoria  como  una función que mapea números reales en el espacio de eventos:

De este modo, si , entonces:

En la definición general de variable aleatoria:

  

El conjunto de todos esos intervalos es un Borel-field :

De este modo: 

Y así Spanos realiza una metamorfosis del espacio probabilístico gracias a la función variable aleatoria:

que es el espacio inducido por la variable aleatoria.

Todos los posts relacionados