(#409). ALGUNAS CONSIDERACIONES EN LA ESTIMACIÓN DEL RENDIMIENTO POR MINUTO EN BALONCESTO (II)

[MONOTEMA] Una vez expuesta la necesidad de gestionar adecuadamente las estadísticas por minuto en baloncesto,  y tras explicar cómo ha de computarse la media, el siguiente paso es discutir las opciones para el cálculo de la varianza de esa media, y por ende, del error estándar necesario para conocer la imprecisión de la estimación.

Aproximación Normal

Levy & Lemeshow (1999) proponen una aproximación a la estimación del error estándar de la media de la siguiente forma:

donde:

Como se puede apreciar, esta expresión cuenta además con la consideración de un factor de finitud que hace que el error estándar sea cero cuando N=n, es decir, cuando tenemos que la muestra es en sí toda la población. Es una fórmula a la que se llega a través del desarrollo de Taylor de la función ratio en el entorno de la media.

El intervalo de confianza 100(1-α)% bajo la aproximación Normal es el siguiente:

donde α es el “tamaño del test” y 100(1-α)% es el nivel de confianza. De este modo, para un nivel de confianza del 95% tenemos:

Aproximación de Cochran

Gatz & Smith (1995), basándose en el trabajo de Cochran (1977), proponen el siguiente estimador:

Al igual que en el caso anterior, se puede construir un intervalo de confianza usando  la aproximación Normal:

No obstante, Gatz & Smith (1995) son prudentes en advertir que no siempre sería correcto asumir la aproximación Normal, sobre todo para muestras pequeñas. Así, la estimación de los errores estándar por remuestreo y el establecimiento de puntos de corte de la distribución empírica remuestrada sería una alternativa a considerar.

Bootstrapping

Gatz & Smith (1995), muestran que la aproximación de Cochran proporciona errores estándar que no difieren estadísticamente de los obtenidos por bootrstrapping.

El método de remuestro consiste básicamente en la extracción de muestras con repetición de la muestra original, y la construcción de una distribución empírica de la media ponderada, donde se puede calcular su error estándar (también empírico). La implementación de intervalos de confianza puede realizarse de varias maneras, también empleando la aproximación normal, o los percentiles de la distribución empírica, que en el caso de 2 colas sería el percentil 2.5% y el 97.5% de la distribución.

Si asumimos esta última opción, los intervalos de confianza al 95% serían:

Ilustración práctica

Vamos a emplear de nuevo los datos de Mike James, que nos van a permitir calcular la imprecisión de su media de puntos por minuto de las 3 formas que acabamos de explicar.

Para ello, suponemos que James ha jugado sólo 25 de los 30 partidos posibles (los 25 primeros), por lo que la estimación de los puntos por minuto tendrá una imprecisión asociada.

Los resultados, con el error estándar y al 95% de confianza son los siguientes:

Aproximación Normal:

Aproximación de Cochran:

Bootstrapping Normal:

Bootstrapping percentil:

Como puede apreciarse, todos los intervalos de confianza contienen al parámetro poblacional, que conocemos (recordemos que sabíamos el rendimiento en los 30 partidos), y que es

De entre todos los procedimientos explicados, el primer de ellos es el que proporciona estimaciones más precisas, porque el error estándar es bastante más pequeño.  La clave está en la inclusión de este factor de finitud:

Si ese factor no se tiene en cuenta, entonces el valor del error estándar sería de 0.0283, es decir, muy similar al obtenido con el método de Cochran y el de remuestreo.

Creemos, sin embargo, que si se entiende que todos los partidos de una competición forman una población finita, y que si el jugador participa en todos ellos entonces su rendimiento no tiene imprecisión, entonces sería conveniente introducir factores de finitud en las estimaciones, que corrijan los errores estándar en muestras finitas (y pequeñas), y así obtener mayor fiabilidad.

Levy & Lemeshow (1999) recomiendan que sólo se use esa aproximación si:

En nuestro caso, ese valor era de 0.0079, por lo que se cumple esa condición.

Conclusión

Ya tenemos un poco más claras algunas de las opciones que tenemos para analizar rendimientos por minuto en baloncesto. Tras explicar cómo se puede calcular la media, hemos presentado varias alternativas para el cálculo de los errores estándar y el intervalo de confianza asociado

El error relativo cometido en el primer caso es del 4.01%, lo que se antoja aceptable para seguir confiando en lo que nos diga un rendimiento de 25 partidos sobre 30 posibles. Hay que tener cuidado cuando el tamaño de la muestra comienza a bajar con respecto al de la población, porque el error relativo se incrementa, y entonces habremos de buscar un criterio de inclusión en el ranking de final de temporada, ya que aquellos jugadores con un rendimiento demasiado impreciso no deberían aparecer en él.

Todos los posts relacionados
[raw]
[/raw]
image_pdfimage_print

Un comentario

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *