(#260). PROPONEN SER 10 VECES MÁS EXIGENTES CON EL P-VALOR

[REVISIÓN DE ARTÍCULO] Setenta y dos investigadores, algunos de ellos auténticas referencias en sus respectivos campos, como John P. A. Ioannidis o Kenneth A. Bollen, firman este artículo en que proponen redefinir el umbral de significación estadística, pasando del tradicional 0.05 a 0.005, es decir, 10 veces más exigente.

Para justificar su propuesta se basan principalmente en el argumento de la carencia de reproducibilidad de estudios en las ciencias sociales y biomédicas. Aunque es cierto que problemas como los múltiples test, el p-hacking, la poca potencia o el sesgo de publicación siguen siendo relevantes, abogan porque la causa capital ese esa carencia es agarrarse irremisiblemente a un p-valor de 0.05 que Roland Fisher escogió arbitrariamente. Para nuevos descubrimientos (no consideran la replicación de estudios existentes) 0.005 sería el umbral para rechazar la hipótesis nula.

El artículo tiene un tufillo eminentemente bayesiano, probablemente porque muchos de los firmantes prefieren este enfoque, en lugar del frecuentista. Así, no es de extrañar que se tome el factor de Bayes (BF) como patrón para el cambio propuesto.

Recordemos que la visión frecuentista de la probabilidad nos dice P(D|H0), es decir, dado que la hipótesis nula es verdad (se asume de partida), nos indica la probabilidad de los datos observados. Cuando esa probabilidad es muy pequeña, por debajo de 0.05, entonces se entiende que hay evidencias para no aceptar Ho.

Sin embargo, bajo la óptica bayesiana, tenemos P(H0|D), es decir, podemos calcular la probabilidad de la hipótesis de partida en función de los datos observables, algo que, al menos a primera vista, parece mucho más intuitivo.

Así, realizar esta operación P(H1|D)/Pr(H0/D) nos indica el ratio entre la probabilidad de la hipótesis alternativa (usualmente que existe un efecto distinto de cero) y la hipótesis nula (usualmente que no existe efecto). Pero claro, la aparente ventaja de esta perspectiva (sin duda más lógica) es que para calcular ambas probabilidades necesitamos estipular unas probabilidades para la H1 y la H0, es decir, unos priors, en lenguaje bayesiano, algo que en este artículo no se discute pero que ha llenado páginas en revistas científicas sobre la idoneidad de incluir la subjetividad (aunque algunos lo llaman información a priori) en la realización de un contraste de hipótesis.

El BF sólo tiene en cuenta la verosimilitud de los datos dadas las hipótesis: BF=f(D|H1)/f(D|H0), aunque esta definición es un tanto “incompleta” porque realmente es un elemento para actualizar los priors, es decir, el conocimiento a priori. De este modo; Posteriors = Priors * BF, es decir, se necesita establecer unos priors para obtener lo que estamos buscando que es : P(H1|D)/Pr(H0/D)

En las condiciones que relatan los autores en el artículo, existe una relación entre este indicador y el p-valor. Así, a un p-valor de 0.05 le correspondería un BF entre 2.5 y 3.4, algo que los autores consideran muy poco exigente.

Sin embargo, un umbral de 0.005 tendría su correspondiente BF entre 14 y 26, es decir, entre 14  y 26 veces en favor de la H1, la hipótesis alternativa, una evidencia bastante fuerte. Además, reduciría el número de falsos positivos. Los autores indican que hay evidencia de que el ratio de replicación es superior en estudios con niveles de significación por debajo de 0.005 que aquellos que están entre 0.005 y 0.05.

Los autores reconocen varias objeciones a su propuesta, entre ellas que el ratio de falsos negativos sería alto; no obstante, si el p-valor está entre 0.005 y 0.05 se podría considerar como “sugestivo”, es decir, como una especie de alerta de que se debe acumular más evidencia para rechazar o no la H0. Siendo realistas, los tamaños de muestra necesarios para detectar efectos en el umbral de 0.005 serían considerablemente mayores, lo que supone una barrera en investigación social y biomédica.

Limitaciones/Comentarios

En 2013, el investigador Valen E. Johnson, propuso una idea similar en la revista PNAS; bajar el nivel de significación a 0.005 o incluso 0.001, también justificándolo con el BF. Para ello se asumen que los priors de H1 y H0 son iguales (0.5) y que no hay subjetividad en la determinación de la hipótesis nula.

Los autores citan este estudio de Johnson y ofrecen una visión parecida, quizá reforzada por el hecho de la cantidad de investigadores firmantes.

Hay que enfatizar que el incremento de exigencia del nivel de significación no debe tapar los problemas de diseño metodológico y de análisis estadístico que son comunes en muchas investigaciones científicas, pero este hecho, por sí solo, ya ofrece quizá más garantías de que se van a reducir los falsos positivos.

Creo que todos los investigadores deberíamos pensar en esta propuesta. Personalmente, no santifico en absoluto el 0.05,  y por mi experiencia creo que se debería ser más exigente principalmente al trabajar con muestras pequeñas, tal y como sostiene esta investigación. Para ello, hemos de esforzarnos en realizar diseños adecuados, obtener muestras más grandes, y ser cautos en las conclusiones.

Sin embargo no debemos obviar que aunque este gran número de investigadores se haya posicionado de esta manera, no dicen nada acerca de otros muchos que se niegan a ver las cosas de ese modo. De hecho, este no es un debate nuevo, ni mucho menos. Particularmente no estoy convencido de que la perspectiva bayesiana sobre la que los autores basan su razonamiento sea adecuada. ¿Qué pasaría con el establecimiento de otros priors? ¿Cuál sería entonces el nivel de significación recomendado?

Es más, poner un punto de corte en 0.005 sigue siendo peligroso en el sentido de pensar en decisiones dicotómicas (acepto/rechazo) que son científicamente más débiles que la continua evaluación de la evidencia.

Lo que sucede es que los “policy makers” necesitan un criterio para tomar decisiones, y es ahí donde los puntos de corte (con más o menos fortuna) son más necesarios. Sin embargo, los investigadores deberíamos tener la mente más abierta y no ser presos de un número que no es ningún Santo Grial, sino sólo una ayuda para el análsis. Eso sí, y quiero dejar esto claro, esto no significa que se deba prestar poca atención a la estadística, todo lo contrario, se necesita mucha destreza y transparencia para analizar correctamente los datos (por ejemplo, con test de mala especificación), y una vez que todo está bien sustentado entonces interpretar el nivel de significación correspondiente, con todos sus complementos necesarios (tamaño de efecto, intervalos de confianza, etc.). Poner poca atención en la estadística con la excusa de que el p-valor es arbitrario es un error garrafal.

No seamos esclavos del p-valor y admitamos que, como bien dicen los autores, una investigación donde no se encuentran efectos debería ser igualmente publicable.  Pero hay que ser certero y preciso con los análisis estadísticos, algo por lo que todos los investigadores deberíamos trabajar día a día para mejorar nuestros conocimientos.

LEE EL ARTÍCULO ORIGINAL AQUÍ:

Benajmin, D. J.  et al.  (2017). Redefine statistical significance. Nature Human Behavior. Forthcoming

Indicadores de calidad de la revista*

 

Impact Factor (2016)

Cuartil

Categoría

Thomson-Reuters (JCR)

Scimago (SJR)

* Es simplemente un indicador aproximado para valorar la calidad de la publicación

Todos los posts relacionados  




(#258). PROTEÍNAS Y GANANCIAS DE FUERZA Y MASA MUSCULAR

[REVISIÓN DE ARTÍCULO] El entrenamiento de resistencia y la suplementación proteica van unidos en la práctica de muchos deportistas. Pese a que es una creencia extendida que la suplementación con proteínas produce ganancias de músculo y fuerza, existe controversia en la investigación científica, principalmente debido a la heterogeneidad de los estudios.

El objetivo de esta investigación es realizar un metanálisis sobre si la suplementación con proteínas puede producir cambios relevantes en los resultados del entrenamiento, analizando la relación entre la dosis y la respuesta.

Metodología

Los autores consideraron todos los ensayos controlados aleatorizados que combinaban el entrenamiento de resistencia y la suplementación proteica.  Esos estudios debían durar al menos 6 semanas y los participantes tenían que entrenar al menos 2 veces semanales. Además, el grupo al que se le suministraba suplementos no debía ingerir otros agentes potencialmente generadores de hipertrofia (creatina, testosterona, etc.). Finalmente se tuvieron en cuenta únicamente estudios donde no se exigía restricción calórica y donde los participantes estuvieran sanos. Todos esos criterios de inclusión hicieron que la muestra se compusiera de 49 investigaciones, que son las que formaron parte del metanálisis.

Como variables de respuesta se consideraron el test de repetición máxima (1RM), la contracción máxima voluntaria (MVC), la masa corporal total (TBM), la masa libre de grasa (FFM) y otras medidas antropométricas.

El total de participantes considerados en los estudios fue de 1863, con una media de 35 años .

Resultados e impliaciones

La suplementación con proteínas produjo ganancias significativas de fuerza en el test de 1RM: Diferencia de medias (MD)= 2.49  IC 95% (0.64 ; 4.33), y ganancias en masa libre de grasa (FFM): MD=0.30 IC 95% (0.09 ; 0.52), mientras que redujo la masa grasa (FM), MD=-0.41 IC 95% (-0.70 ; -0.13).

Las ganancias en FFM fueron menos efectivas a medida que la edad de los participantes se incrementaba, y no se produjeron por encima de 1.6 g/kg/día. Este último es un resultado muy importante porque indica que se puede conseguir resultados equivalentes con una ingesta proteica que se puede obtener de forma relativamente  fácil desde la propia dieta (sin necesidad, por tanto, de suplementarse). Los autores encuentran que el momento de la suplementación proteica (post-entrenamiento, pre-entrenamiento, etc.) tenía un rol marginal en los resultados.

Limitaciones/Comentarios

Establecer recomendaciones generales en entrenamiento deportivo es muy complejo. Este estudio pretende hacerlo al recopilar 49 investigaciones anteriores sobre los efectos de la suplementación con proteínas en algunas variables clave de rendimiento y antropométricas. Pero bajo mi punto de vista, y aunque meritorio, sólo da una visión muy general al respecto.

Mezclar estudios donde existe una gran heterogeneidad de edades y de formas de suplementación (de tipos de proteína ingerida),produce un dibujo demasiado ecléctico. Es cierto que los autores reportan que en 23 de sus estudios la ingesta calórica diaria total se mantenía constante, pero no sabemos nada del resto, y eso podría condicionar los resultados.

Los autores tampoco inciden en los test de mala especificación de sus análisis estadísticos (algo habitual en este tipo de estudios), por lo que cuando se habla de “regresión” no se reportan si se cumplen las asunciones.

Parece adecuado escoger ese 1.6 gr/kg/día como recomendación general, pero hay que admitir también que la regresión segmentada realizada para detectar ese “break point” tiene un p-valor de 0.079, por lo que una interpretación más prudente sería recomendable.

Lo que está claro es que las recomendaciones de consumo de proteínas para la población general de 0.8 gr/kg/día que se dan en Canadá y Estados Unidos no son suficientes para el segmento de deportistas. La cuestión más peliaguda es entonces hablar acerca de dónde está el límite superior, algo que en este artículo se estima alrededor de 2.2 gr/kg/día, lo que también es un error  de interpretación de los intervalos de confianza. Recordemos que bajo el prisma frecuentista un intervalo de confianza al 95% significa que 95 de cada 100 veces que repitamos el experimento el parámetro estará dentro del intervalo generado, pero ese intervalo puede ser diferente para cada repetición del experimento, por lo que esos intervalos de confianza no se pueden interpretar como la probabilidad de que el parámetro esté dentro, algo que la óptica bayesiana sí permite.

Además, ¿qué sucede con los deportistas enfocados principalmente a la hipertrofia? En el ámbito del fitness/culturismo existen entrenadores que recomiendan ingestas superiores a ese 1.6 gr/kg/día. Este artículo no da respuesta a esta cuestión, aunque es cierto que tampoco era el objetivo.

Por tanto, mi visión global de esta investigación es que reporta una idea general interesante sobre el efecto de una suplementación proteica prudente sobre ciertas variables de rendimiento y antropométricas. Unos efectos que se consiguen sin la necesidad de una suplementación “extrema” (de por ejemplo 3 gr/kg/día que algunos recomiendan), que queda fuera del alcance de este artículo.

Como los tipos de proteína se entremezclan, los autores no dan ningíun tipo de recomendación al respecto (por ejemplo si usar proteína de suero en polvo frente a proteína animal proveniente de alimentos).

En definitiva, un meritorio trabajo de investigación pero que sigue dejando infinidad de preguntas abiertas. Y eso es lo bonito de la ciencia, que conforme vas avanzando en el camino se abren muchas más posibilidades.

LEE EL ARTÍCULO ORIGINAL AQUÍ:

Morton, R. W.  et al.  (2017). A systematic review, meta-analysis and metaregression of the effect of protein supplementation on resistance training-induced gains in muscle mass and strength in healthy adults. British Journal of Sports Medicine,  doi: 10.1136/bjsports-2017-097608

Indicadores de calidad de la revista*

 

Impact Factor (2016)

Cuartil

Categoría

Thomson-Reuters (JCR)

6.557

Q1

SPORTS SCIENCES

Scimago (SJR)

3.25

Q1

SPORTS SCIENCE

* Es simplemente un indicador aproximado para valorar la calidad de la publicación

Todos los posts relacionados 




(#199). METANÁLISIS SOBRE LA EFECTIVIDAD DE LA PUBLICIDAD CON CELEBRIDADES

[REVISIÓN DE ARTICULO] Uno de los grandes temas del marketing es valorar el efecto de las acciones de comunicación. Dentro de ellas, una de las más importante es el contratar celebridades para que apadrinen una marca.

Esa forma de realizar marketing puede afectar en diferente grado a los consumidores; a nivel cognitivo, afectivo y conductual. Es decir, y por ejemplo: puede incrementar el conocimiento de marca (cognitivo), modificar la imagen percibida (afectivo), y cambiar el patrón de compra (conductual). Los autores nombran un gran cuerpo de literatura que ha estudiado esas conexiones.

La forma en la que esos embajadores de marca pueden influir en los consumidores está moderada por multitud de variables: sexo de la celebridad, tipo de celebridad, congruencia con la marca, apoyo implícito o explícito a la marca por parte de la celebridad, exposición mediática, familiaridad del consumidor con el producto.

Todo esto hace que los análisis para obtener una respuesta resumida acerca de esta cuestión se tornen muy complejos. Los autores, no obstante, lo  han intentado a través de un metanálisis.

Metodología

Los autores identifican 300 estudios realizados sobre esta temática, que fueron sometidos a un proceso de cribado. Para ello, sólo se incluyeron estudios experimentales, donde existía siempre un grupo de control, ya fuera donde el producto se anunciaba sin la celebridad (apoyado por otra persona no conocida, o con el producto en solitario). El siguiente criterio de inclusión fue considerar sólo celebridades que realmente existían, no personajes ficticios. Además, los estudios tenían que reportar medidas de efecto relativas al producto apadrinado.

Un total de 44 estudios fueron finalmente considerados, de los cuales 8 tuvieron que ser exlcuidos porque no daban la suficiente información estadística para calcular los tamaños de fecto. Por tanto, la muestra final la componían 36 artículos publicados.

Se calcularon los tamaños de efecto “d de Cohen” corregidos por el tamaño de las muestras. Como había varios endpoints en cada estudio, se obtuvieron 367 tamaños de efecto en la muestra total.

Para integrar esos tamaños de efecto en el metanálisis se empleó un modelo de efectos aleatorios mixto (multinivel), en el que los tamaños de efecto están en el primer nivel, los endpoints en el segundo nivel,  y los estudios en el tercer nivel.

Las variables moderadoras fueron categorizadas en diferentes alternativas, con el fin de introducirlas como covariables en el análisis. 

Resultados e implicaciones

Globalmente, no existe ningún efecto significativo en las respuestas de los participantes d=0.04 95% CI (-0.09 ; 0.17).  Sin embargo, los autores detectan una alta heterogeneidad en esos tamaños de efecto.

Como puede verse en la siguiente tabla, no existe influencia de la celebridad ni en el recuerdo o reconocimiento de marca, ni en la actitud hacia el anuncio o hacia el objeto, ni en las intenciones de comportamiento. Sólo hay un efecto significativo en las intenciones hacia el producto anunciado cuando la comparativa se hace con un grupo de control en el que el producto no es apadrinado, pero no ocurre así cuando aparece otra persona que no es famosa.
b199_2

Sin embargo, al incluir los factores moderadores en el análisis se puede ver como existen algunos efectos sobre las respuestas de los participantes. La siguiente tabla resume los principales resultados de la investigación.

b199_3

En base a ello, se puede decir que el uso de las celebridades es más efectivo cuando: (1) hay congruencia entre la celebridad  y el producto; (2) la celebridad es hombre; (3) el apoyo de la celebridad es implícito; (4) es un actor frente a otro tipo de celebridad; (5) el producto es poco familiar.

Limitaciones/Comentarios

Los autores concluyen que “en general, los apadrinamientos son una forma indudablemente efectiva de realizar comunicación de marketing”. Creo que esa afirmación es extremadamente osada tras ver los resultados de su propio estudio.

Globalmente, no existe efecto, pero sí al mirar los moderadores. Esto puede indicar que hay una forma más efectiva de utilizar esta herramienta de marketing, que es la que se ha comentado en las implicaciones, lo que conlleva también el resultado de que determinados tipos de publicidad con celebridades puede ser incluso contraproducente desde la óptica de la percepción del consumidor (además del gasto que supone contratar a la celebridad).

Una gran limitación de este estudio, que comentan certeramente los autores, es que el metanálisis prácticamente se centra en estudios experimentales que miden las respuesta de los participantes de forma inmediata. Los patrocinios, y también la publicidad tienen gran parte de su impacto en el largo plazo, por lo que no se puede concluir en absoluto que esos apadrinamientos sean inefectivos o efectivos a largo plazo.

Cuando se habla de efectos conductuales en realidad se está hablando de intenciones de comportamientos y no de comportamientos efectivos. Estos pueden diferir en mucho de aquellos, por lo que tampoco es un indicador adecuado para hablar de efectividad en términos tangibles, es decir, como una forma de valorar el retorno a la inversión.

En resumen, un meritorio estudio que deja muchas incógnitas todavía. No obstante, el hecho de que se encuentre que la congruencia entre el producto anunciado y la celebridad produce un efecto significativo refuerza una de los aspectos más importantes de la comunicación de marketing cuando se trata de contratar padrinos para las marcas.

Knoll, J. & Matthes, J.  (2016). ORIGINAL EMPIRICAL RESEARCH The effectiveness of celebrity endorsements: a meta-analysis. Journal of the Academy of Marketing Science, doi: 10.1007/s11747-016-0503-8

Indicadores de calidad de la revista*

 

Impact Factor (2015)

Cuartil

Categoría

Thomson-Reuters (JCR)

3.744

Q1

BUSINESS

Scimago (SJR)

3.86

Q1

MARKETING

* Es simplemente un indicador aproximado para valorar la calidad de la publicación

Todos los posts relacionados




(#61). CÁNCER Y CAMPOS ELECTROMAGNÉTICOS DE BAJA FRECUENCIA

[REVISIÓN DE ARTÍCULO] Los autores realizan una recopilación de 42 estudios caso-control que analizaban la relación entre la exposición a campos magnéticos de baja frecuencia y el desarrollo de cáncer. Esos estudios fueron clasificacdos por el origen geográfico de los mismos y por el tipo de cáncer identificado.

Los resultados muestran una asociación significativa: OR = 1.08 ; 95% IC (1.01 ;1.15) global tras realizar el metanálisis. Los resultados por subgrupos son también interesantes aunque quedan limitados por el número de estudios en cada categoría. Cabe destacar que en casi todos los tipos de cáncer no se muestran resultados significativos, aunque muchos de ellos están al borde de la significación al 95%. Sólo los 23 estudios sobre cáncer de mama arrojan resultados significactivos OR = 1.07 ; 95% IC (1.00 ;1.15).

Es muy interesante indicar que en ningún tipo de cáncer se muestra un efecto protector, es decir, OR significativamente por debajo de 1, y en la mayoría de ellos esa OR está por encima de 1. Sin embargo, cabe asimismo reseñar que cuando se analizaron sólo los 16 estudios que tomaron medidas in-situ de exposición a campos magnéticos, los resultaos no son significativos: OR = 1.03 ; 95% IC (0.92 ;1.15).

En definitiva, de nuevo resultados que arrojan incertidumbre sobre esta cuestión, aunque los autores concluyen que existe una incremento de riesgo de cáncer para los individuos expuestos a campos magnéticos provenientes de frecuencias extremadamente bajas, aunque advierten que se necesitan más estudios para esclarecer esta afirmación.

Zhang, Y., Lai, J., Ruan, G., Chen, C. & Wang, D. W. (2016). Meta-analysis of extremely low frequency electromagnetic fields and cancer risk: a pooled analysis of epidemiologic studies. Environment International, 88, 36-43. doi: dx.doi.org/10.1016/j.envint.2015.12.012
 
Indicadores de calidad de la revista*
JCR Impact Factor (2014): 5.56
SJR  Impact Factor (2014): 2.38
* Es simplemente un indicador aproximado para valorar la calidad de la publicación

Todos los posts relacionados