Hace unos años incidí en la necesidad de tomar una aproximación probabilística a la construcción de rankings para valorar el rendimiento de jugadores de baloncesto. Como se puede leer en este post y en el artículo que publiqué en RICYDE, es necesario considerar las impreciones en las estimaciones de los valores medios que caracterizan el rendimiento de los jugadores: puntos, rebotest, asistencias, etc.
Cuando un jugador no juega todos los partidos de la temporada, su valor medio de puntos es un estimador del valor medio de puntos que habría obtenido si los jugara todos, si consideramos que todos los partidos componen la población, y asumimos (con cierto riesgo) que los partidos en los que realmente juega son una muestra aleatoria de esa población.
En el artículo, se explica paso a paso un método para hacerlo, incluyendo a aquellos jugadores en los que la precisión sea admisible, es decir, no tengan un intervalo de confianza demasiado grande. De este modo, sólo sería posible la comparación rigurosa entre jugadores que hubieran jugado un número mínimo de partidos. De manera intuititva, eso es lo que realmente se suele hacer en la valoración de los rankings en las competiciones profesionales, aunque esos criterios de inclusión no sean del todo precisos y justificados estadísticamente.
Sin embargo, las variables del box-score no están ponderadas por los minutos de juego, y esto propicia que se puedan obtener mejor (o peor) rendimiento bruto en función del número de minutos jugados, y no de la habilidad subyacente del jugador. Por tanto, es muy recomendable comparar el rendimiento de los jugadores por minuto jugado, en aras de obtener índices de «productividad», o capacidad de aportar al rendimiento del equipo en función de los recursos empleados, que en este caso son los minutos que se está en pista.
Pero al construir una variable de rendimiento por minuto jugado, nos encontramos con ciertas dificultades estadísticas que merecen ser discutidas, ya que ni la estimación de la media, ni de la varianza, ni del error típico son tan sencillas como las de una variable sin ponderar. El objetivo de este post, es comentar algunas de esas opciones que los analistas tenemos para realizar nuestro trabajo, centrándonos en el cálculo de la media. Dejaremos para más adelante el cómputo del error.
El cálculo de la mediaPartamos de un ejemplo práctico para ilustrar el problema; la estimación de los puntos por minuto del máximo anotador de la fase regular de la Euroliga 2018/19: Mike James. El jugador del Olimpia Milan ha anotado 595 puntos (X) en 30 partidos, es decir, una media de 19.8.
Pero ha jugado 1018 minutos y 26 segundos, es decir, 1018.433 minutos (Y), por lo que los puntos por minuto (R=X/Y) han sido: 0.5842. Sin embargo, la media de todos los puntos por minuto de los 30 partidos es 0.5839, es decir, difiere (en este caso ligeramente) de lo obtenido cuando se divide 595 entre 1018.433. ¿Cómo es esto posible?
Recordemos que una de las primeras cosas que aprendemos en estadística es que la esperanza matemática de la media muestral es la media poblacional. Es decir, la media de todas las medias muestrales es la media poblacional, dicho de otro modo, la media muestral es un estimador insesgado de la media poblacional.
Pero no ocurre así en este caso, y la razón es que precisamente tenemos una variable de «razón», o un ratio entre dos variables aleatorias: los puntos y los minutos. Cuando se tiene ese ratio, la media muestral no es un estimador insesgado de la media poblacional.
En su recomendable libro, Levy & Lemeshow (1999), admiten en la página 191 que en la práctica ese error es muy pequeño en la mayoría de ocasiones, y que se suele despreciar.
Sin embargo, tal y como demuestran van Kempen & van Vliet (2000), se puede obtener un estimador insesgado cuando se divide la media de una variable entre la media de la otra. Es decir, buscamos el mejor estimador posible del ratio entre los puntos y los minutos, y tenemos dos opciones:
Por tanto, sería el estimador adecuado. La razón por la que
no lo es es porque no se consideran los «pesos» de la ponderación por los minutos jugados. La única forma en la que
es cuando la razón entre ambas variables (x,y) es constante para todas las observaciones. Pero es lógico pensar que no tiene por qué ser así necesariamente.
De este modo, una forma alternativa de obtener la media que buscamos es sustituir la media aritmética por la media ponderada, tomando el peso de cada observación del denominador como una medida de importancia de esa observación.
Así, sea , el peso de cada observación del denominador, donde:
Entonces:
En la siguiente tabla se muestran esos datos, con el cómputo de los 3 diferentes ratios que acabamos de explicar.
ConclusiónEn este post hemos mostrado de manera sencilla cómo enfocar el análisis del rendimiento por minuto de los jugadores de baloncesto, centrándonos en el primer paso, que es la determinación del valor medio.
Nos queda lo más complejo, que es, a partir de aquí, elegir entre las diferentes opciones para estimar la varianza y el error estándar de la media. En el caso del jugador elegido, hemos tenido la "suerte" de que ha jugado todos los partidos de la temporada, y el valor de su media no tiene imprecisión asociada. Sin embargo, no va a ocurrir esto en la mayoría de los casos, y habremos de reportar esa media (correctamente calculada) y la imprecisión de la estimación asociada a ella. Lo veremos en el siguiente post.
1 comentario en «ALGUNAS CONSIDERACIONES EN LA ESTIMACIÓN DEL RENDIMIENTO POR MINUTO EN BALONCESTO (I).»
Los comentarios están cerrados.