(#408). ALGUNAS CONSIDERACIONES EN LA ESTIMACIÓN DEL RENDIMIENTO POR MINUTO EN BALONCESTO (I)

[MONOTEMA] Hace unos años incidí en la necesidad de tomar una aproximación probabilística a la construcción de rankings para valorar el rendimiento de jugadores de baloncesto. Como se puede leer en este post y en el artículo que publiqué en RICYDE, es necesario considerar las impreciones en las estimaciones de los valores medios que caracterizan el rendimiento de los jugadores: puntos, rebotest, asistencias, etc.

Cuando un jugador no juega todos los partidos de la temporada, su valor medio de puntos es un estimador del valor medio de puntos que habría obtenido si los jugara todos, si consideramos que todos los partidos componen la población, y asumimos (con cierto riesgo) que los partidos en los que realmente juega son una muestra aleatoria de esa población.

En el artículo, se explica paso a paso un método para hacerlo, incluyendo a aquellos jugadores en los que la precisión sea admisible, es decir, no tengan un intervalo de confianza demasiado grande. De este modo, sólo sería posible la comparación rigurosa entre jugadores que hubieran jugado un número mínimo de partidos. De manera intuititva, eso es lo que realmente se suele hacer en la valoración de los rankings en las competiciones profesionales, aunque esos criterios de inclusión no sean del todo precisos y justificados estadísticamente.

Sin embargo, las variables del box-score no están ponderadas por los minutos de juego, y esto propicia que se puedan obtener mejor (o peor) rendimiento bruto en función del número de minutos jugados, y no de la habilidad subyacente del jugador. Por tanto, es muy recomendable comparar el rendimiento de los jugadores por minuto jugado, en aras de obtener índices de “productividad”, o capacidad de aportar al rendimiento del equipo en función de los recursos empleados, que en este caso son los minutos que se está en pista.

Pero al construir una variable de rendimiento por minuto jugado, nos encontramos con ciertas dificultades estadísticas que merecen ser discutidas, ya que ni la estimación de la media, ni de la varianza, ni del error típico son tan sencillas como las de una variable sin ponderar. El objetivo de este post, es comentar algunas de esas opciones que los analistas tenemos para realizar nuestro trabajo, centrándonos en el cálculo de la media. Dejaremos para más adelante el cómputo del error.

El cálculo de la media

Partamos de un ejemplo práctico para ilustrar el problema; la estimación de los puntos por minuto del máximo anotador de la fase regular de la Euroliga 2018/19: Mike James. El jugador del Olimpia Milan ha anotado 595 puntos (X) en 30 partidos, es decir, una media de 19.8.

Pero ha jugado 1018 minutos y 26 segundos, es decir, 1018.433 minutos (Y), por lo que los puntos por minuto (R=X/Y) han sido: 0.5842. Sin embargo, la media de todos los puntos por minuto de los 30 partidos es 0.5839, es decir, difiere (en este caso ligeramente) de lo obtenido cuando se divide 595 entre 1018.433. ¿Cómo es esto posible?

Recordemos que una de las primeras cosas que aprendemos en estadística es que la esperanza matemática de la media muestral es la media poblacional. Es decir, la media de todas las medias muestrales es la media poblacional, dicho de otro modo, la media muestral es un estimador insesgado de la media poblacional.

Pero no ocurre así en este caso, y la razón es que precisamente tenemos una variable de “razón”, o un ratio entre dos variables aleatorias: los puntos y los minutos. Cuando se tiene ese ratio, la media muestral no es un estimador insesgado de la media poblacional.

En su recomendable libro, Levy & Lemeshow (1999), admiten en la página 191 que en la práctica ese error es muy pequeño en la mayoría de ocasiones, y que se suele despreciar.

Sin embargo, tal y como demuestran van

Por tanto, sería el estimador adecuado. La razón por la que no lo es es porque no se consideran los “pesos” de la ponderación por los minutos jugados. La única forma en la que es cuando la razón entre ambas variables (x,y) es constante para todas las observaciones. Pero es lógico pensar que no tiene por qué ser así necesariamente.

De este modo, una forma alternativa de obtener la media que buscamos es sustituir la media aritmética por la media ponderada, tomando el peso de cada observación del denominador como una medida de importancia de esa observación.

Así, sea , el peso de cada observación del denominador, donde:

Entonces:

En la siguiente tabla se muestran esos datos, con el cómputo de los 3 diferentes ratios que acabamos de explicar.

Game Player PTS MP PTS/MP Pesos (wi) xiwi/yi R r1 r2 r3
1 JAMES, MIKE 13 33.58 .3871 .033 .0128 .5842 .5839 .5842 .5842
2 JAMES, MIKE 21 34.45 .6096 .0338 .0206
3 JAMES, MIKE 22 29.48 .7462 .0289 .0216
4 JAMES, MIKE 25 37.3 .6702 .0366 .0245
5 JAMES, MIKE 15 36.02 .4165 .0354 .0147
6 JAMES, MIKE 16 39.33 .4068 .0386 .0157
7 JAMES, MIKE 21 36.2 .5801 .0355 .0206
8 JAMES, MIKE 20 29.55 .6768 .029 .0196
9 JAMES, MIKE 19 36.05 .527 .0354 .0187
10 JAMES, MIKE 17 39.87 .4264 .0391 .0167
11 JAMES, MIKE 26 37.82 .6875 .0371 .0255
12 JAMES, MIKE 31 37.5 .8267 .0368 .0304
13 JAMES, MIKE 17 34.5 .4928 .0339 .0167
14 JAMES, MIKE 12 34.98 .343 .0344 .0118
15 JAMES, MIKE 16 33.42 .4788 .0328 .0157
16 JAMES, MIKE 17 31.65 .5371 .0311 .0167
17 JAMES, MIKE 20 37.53 .5329 .0369 .0196
18 JAMES, MIKE 29 35.93 .8071 .0353 .0285
19 JAMES, MIKE 27 33.73 .8004 .0331 .0265
20 JAMES, MIKE 20 36.12 .5538 .0355 .0196
21 JAMES, MIKE 22 28.78 .7643 .0283 .0216
22 JAMES, MIKE 18 33.73 .5336 .0331 .0177
23 JAMES, MIKE 19 30.77 .6176 .0302 .0187
24 JAMES, MIKE 16 28.27 .566 .0278 .0157
25 JAMES, MIKE 13 31.4 .414 .0308 .0128
26 JAMES, MIKE 27 34.42 .7845 .0338 .0265
27 JAMES, MIKE 35 36.8 .9511 .0361 .0344
28 JAMES, MIKE 16 28.25 .5664 .0277 .0157
29 JAMES, MIKE 8 29.65 .2698 .0291 .0079
30 JAMES, MIKE 17 31.35 .5423 .0308 .0167
Total 595 1018.433
Media 19.83 33.95

Conclusión

En este post hemos mostrado de manera sencilla cómo enfocar el análisis del rendimiento por minuto de los jugadores de baloncesto, centrándonos en el primer paso, que es la determinación del valor medio.

Nos queda lo más complejo, que es, a partir de aquí, elegir entre las diferentes opciones para estimar la varianza y el error estándar de la media. En el caso del jugador elegido, hemos tenido la "suerte" de que ha jugado todos los partidos de la temporada, y el valor de su media no tiene imprecisión asociada. Sin embargo, no va a ocurrir esto en la mayoría de los casos, y habremos de reportar esa media (correctamente calculada) y la imprecisión de la estimación asociada a ella. Lo veremos en el siguiente post.

Todos los posts relacionados
[raw]
[/raw]
image_pdfimage_print

Un comentario

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *