Es indudable que algo falla en la ciencia actual, al menos en las disciplinas que emplean habitualmente datos observacionales para realizar inferencias sobre poblaciones. La epidemiología, que la OMS define como el estudio de la distribución y los determinantes de estados o eventos relacionados con la salud, es uno de los campos científicos más controvertidos a este respecto, sin olvidar otros como la psicología, la educación o el marketing.
Sin embargo, que «algo huela a podrido en Dinamarca», no significa que no haya resquicios de nobleza, esperanza y valor en el escenario donde los más cerriles y necios se escudan en la eterna contradicción, en ese «ser o no ser», para defender que todo es está sujeto a duda, por lo que ningún conocimiento es significativo. Esa duda se vuelve paroxismo, y la necedad una continua negación.
En este post vamos a discutir acerca de la realidad de una situación incómoda, admitiendo los grises de una forma de proceder muchas veces mejorable, pero resaltando también que en ese teatro cómico y trágico a la vez, hay latentes algunas historias veraces.
Cientos y cientos de decisiones sobre salud pública se toman en base a estudios epidemiológicos. Es, por tanto, innegable la importancia que tiene saber discernir qué conclusiones podemos sacar de las investigaciones publicadas, siendo conscientes de sus limitaciones, pero sin obviar que entre traiciones, venenos y corruptelas, hay investigadores que claman justicia.
Las limitaciones
«Un átomo de impureza corrompe la más noble sustancia, rebajándola al nivel de su propia degradación». No es sólo un átomo, desafortunadamente.
Los casos de fraude asociados a la industria farmacéutica y a las investigaciones con conflictos de intereses son objeto de atención desde hace mucho tiempo. Un simple paseo por la web «No Gracias«, nos ilustra un universo de revocaciones médicas, medicamentos inútiles, corrupción en la industria y en las agencias que deciden sobre la introducción de fármacos, investigadores asociados a la industria, etc.
La formación de comités que toman decisiones sobre salud evaluando estudios epidemiológicos también produce dudas. Por ejemplo, el Scientific Committee on Emerging and Newly Identified Health Risks (SCENIHR) forma parte de la Comisión Europea, que es un órgano ejecutivo y legislativo de la Unión Europea. Este comité trata cuestiones relacionadas con nuevos o emergentes riesgos ambientales para la salud, y está formado por varios expertos de diferentes universidades y centros de investigación europeas. La constitución de los miembros de este panel de expertos y grupo de trabajo ha sido objeto de críticas por parte de varias instituciones y científicos, ante el evidente conflicto de intereses de algunos miembros y la poca experiencia de otros en relación a publicaciones científicas en este ámbito.
No todo es podredumbre, claro está. Pero incluso en contextos de honestidad y buenas intenciones de los investigadores, existen impedimentos para creernos mucho de lo que nos cuentan. El reconocido investigador de la Universidad de Standford Jonh P. A. Ioannidis, lleva más de una década mostrándonos lo prudentes que hemos de ser con los resultados científicos, por la falta de replicación de muchos de ellos.
Otro problema es el de la incapacidad de algunos investigadores de proveer una completa descripción de su metodología y análisis que conlleve una concisa especificación del modelo estadístico (y, por ende, de sus asunciones), procediendo a test de mala especificación. Esta visión purista, pero ciertamente loable de la construcción de modelos, es defendida por investigadores tan eminentes como Aris Spanos o Deborah G. Mayo, y nos muestra una forma de proceder que es obviada por la inmensa mayoría de artículos publicados. Nos dan el p-valor, nos describen las variables del modelo, pero no profundizan en su validez. Esto es un lastre descorazonador.
El eufemismo de hablar siempre de asociaciones estadísticas cuando subyace una interpretación causal es también un problema. Pese a ser que evitar el término causa es algo muy común entre estadísticos (ver Rabe-Hesketh & Skrondal, 2014), en ocasiones parece un excusa para no atender a procedimientos metodológicos que eviten el sesgo por endogeneidad. Admitir que pueden existir variables de confusión es honesto, pero no intentar al menos solucionar este problema empleando técnicas conocidas como la estimación por variable instrumentales es quizá inexcusable. Autores como John Antonakis llevan años divulgando artículos donde se ilustra cómo proceder para evitar el posible sesgo por endogeneidad.
Otro problema es la falta de control sobre los errores de medida y el escaso interés que la epidemiología muestra por los modelos de ecuaciones estructurales. Este tipo de modelos son mucho más empleados en psicología, educación y marketing. Es muy usado con datos observacionales pero se falla de nuevo estrepitosamente en su implementación e interpretación. Autores como Leslie A. Hayduk y de nuevo John Antonakis nos advierten del error de confiar en ajustes aproximados para testar modelos, cuando el único ajuste correcto es el del test estadístico de la chi-cuadrado. La cantidad de estudios que han sacado conclusiones causales cuando el modelo no se ajustaba se cuentan por miles, por lo que es posible que haya miles de conclusiones erróneas.
P-hacking, cherry-picking, búsqueda desesperada de la significación estadística… Si a todo esto le unimos la complejidad inherente a los fenómenos sociales, que describo con más detalle en este post, donde hemos de considerar conceptos como la hormesis, la histéresis, la dinámica no lineal, los efectos acumulativos, etc., nos enfrentamos a un panorama altamente desafiante, dificultoso y, quizá para algunos, inabordable.
Los descreídos
Lo acabo de admitir, es un escenario muy complejo. ¿Pero está todo perdido? No lo está, aunque algunos descreídos así lo piensen.
He de diferenciar dos tipos de incrédulos muy distintos en cuanto a su perfil. El primer tipo es el de sanos escépticos, en el que yo mismo me incluyo. Sabemos las limitaciones e intentamos ser prudentes en la interpretación de los resultados. Trabajamos para intentar mejorar, aunque a veces fallemos también en esa quimera. Somos críticos, sí, pero intentamos manejar el lenguaje de la ciencia discutiendo sobre la problemática de los muestreos no aleatorios, sobre si la selección de controles en un estudio caso-control puede condicionar los resultados, sobre cómo emplear test de mala especificación o estimación con variables instrumentales, etc.
El segundo tipo es el de incrédulos cerriles, en el que «todo es basura». Bueno no todo, los resultados de investigaciones que concuerdan con sus intereses personales sí que valen, pero los que no son consistentes con su visión del mundo son altamente cuestionables. Si creen que la contaminación electromagnética no afecta a la salud te dirán que «todo es basura», que todas esas investigaciones son cuestionables. Pero si te dan una charla sobre los beneficios de un modo de intervención educativa, una manera afrontar los problemas de aprendizaje, o una forma de invertir en publicidad para mejorar las ventas, entonces sí que recurren a la literatura científica que es consistente con su forma de pensar. Ahí ya no hay tanta basura, ahí hay evidencias claras de que existen unos determinados efectos, aunque los métodos empleados en todas esas disciplinas sean exactamente los mismos, igual de limitados.
Este segundo tipo de descreídos sucumben al sesgo de confirmación, tan presente cuando hablamos de consistencia cognitiva; creen lo que quieren creer, lo consistente con sus creencias y prejuicios. Es un modo de autodefensa, una forma de minimizar sus costes psicológicos. En este post anterior explico con más detalle este hecho.
Estos descreídos son también vulnerables al efecto halo. Si encuentran que los resultados de una investigación que no concuerda con sus intereses son cuestionables, entonces rápidamente extienden ese razonamiento a todas las demás, sin evaluar su valor. Es decir, «como esta investigación tiene muchas limitaciones», todas las demás que argumentan implicaciones similares son inválidas. Este es uno de los razonamientos empleados por personas para atacar cualquier tipo de tópico de investigación, como la asociación entre la exposición a pesticidas y los problemas de salud en niños, por ejemplo, de lo que ampliamente hablo aquí.
Siguiendo ese mismo razonamiento (efecto halo) Einstein, por ejempo, sería un pipiolo porque no se creía la mecánica cuántica según la visión de Niels Borh. El genial físico tuvo que suavizar su postura años más tarde ante las evidencias empíricas encontradas.
¿Cómo podemos obtener algo de luz entre toda esta oscuridad?
Algo se puede hacer. A nivel particular mi forma de valorar la información sobre estudios epidemiológicos (también los experimentales) y de interpretar los resultados es la siguiente:
1. Acumulación de evidencia
Cuando 35 años de estudios sobre un mismo tema están arrojando resultados similares, es que posiblemente exista ese fenómeno. Es el caso, por ejemplo, de la asociación entre la exposición a campos electromagnéticos de baja frecuencia y la leucemia infantil, tal y como expongo en este extenso informe. Diversos metanálisis, análisis agregados y estudios individuales han mostrado un patrón de asociación consistente durante cuatro décadas, aunque haya también estudios (menos) que no hayan encontrado resultados significativos. Podemos darle las vueltas que queramos, pero a día de hoy, esa es la interpretación más lógica tras valorar decenas de estudios realizados por autores diferentes, metodologías diferentes, poblaciones diferentes, y revisados por investigadores diferentes. Si dentro de 20 años la evidencia acumulada cambia, entonces deberemos admitir ese cambio, pero con los datos que manejamos hoy, lo prudente es pensar que hay algo detrás de la exposición a esa fuente de contaminación.
2. Evidencia multidisciplinar
Existe la equivocada creencia de que las disciplinas científicas son compartimentos estancos en el que cada uno tiene que ceñirse a su campo. Esa frase que les gusta tanto a algunos de «yo sólo entiendo de lo mío» implica un desprecio por aquellos que se esfuerzan en tener una visión global sobre los problemas, recorriendo diversas ramas de la ciencia en pos de obtener respuestas. Quizá un investigador multidisciplinar no sea un «sobresaliente» en una rama científica, pero sí que puede ser un «notable» en muchas de ellas. Eso siempre le dará una visión holística de la problemática que estudia, probablemente más acertada que aquellos que son «sobresalientes» en su rama, pero que no son capaces de mirar más allá de allí.
Dennis Henshaw, de la Universidad de Bristol es uno de los que se atreve a realizar este tipo de aventuras en pos de conseguir explicar 35 años de relación entre la leucemia infantil y los campos electromagnéticos de baja frecuencia. En esta presentación realizada en 2014 recorre la literatura de varias ramas científicas que él considera que son olvidadas a la hora de reconocer un problema que tendría otra perspectiva si se adoptara una visión multidisciplinar.
En España ser un investigador multidisciplinar está mal visto por muchos. Yo mismo he sufrido ataques, reproches, intentos de veto, etc. en los últimos años de mi vida académica debidos a este hecho.
3. Análisis de sensibilidad
Otro de los factores por los que me guío es el análisis de sensibilidad. Ciertamente no todos los artículos lo hacen, pero el hecho de que los autores se esfuercen por re analizar los datos en función de diferentes especificaciones refuerza siempre sus conclusiones finales.
4. Resultados significativos en presencia de error de medida
Cuando se encuentra un efecto significativo en un análisis de regresión en presencia de error de medida en esa variable, lo más probable es que el efecto real sea todavía más acentuado. Podemos leer este sencillo artículo de Ree & Carreta (2006), donde nos muestran que el error de medida infla la varianza observable. Por tanto, encontrar diferencias significativas con varianzas infladas tiene mucho más mérito aún, ya que se está atenuando el verdadero efecto, que será incluso mayor. Evidentemente el error de medida tiene que ser aleatorio, no sistemático, pero emplear como crítica que hay muchos errores en la medición es realmente un halago a los resultados de la investigación que se quiere criticar.
5. Carencia de efecto protector
Resulta muy curioso cuando hay descreídos (del tipo 2, habitualmente) que argumentan que «hay investigaciones que muestran el efecto y otras que no, es decir, hay controversia». Eso es una falacia y es sencillo explicar porqué.
Cuando hay efectos positivos y efectos negativos, y además se dan de manera equivalente, es cierto que la incertidumbre es patente. Pero en el caso de múltiples problemas de salud pública que trata la epidemiología no es así. Lo que ocurre es que hay efectos dañinos y carencia de efectos. Lo que no hay (habitualmente) son efectos protectores. Es decir, los efectos (cuando se detectan) tienen siempre el mismo sentido. Esto es un indicador muy potente de que realmente existe tal efecto.
Es muy fácil de simular usando la distribución binomial (en realidad habría que usar una discreta uniforme o una multinomial, pero lo dejaremos así por facilidad de cálculo admitiendo que es sólo un recurso para hacerlo más sencillo). Supongamos que tenemos n investigaciones en las que el resultado puede ser: (1) efecto protector; (2) carencia de efecto; (3) efecto dañino. Si todas esas investigaciones fueran equivalentes e intercambiables (que no lo son, pero podemos suponerlo para esta ilustración), entonces se puede testar si la ocurrencia de uno de esos 3 eventos es diferente a 0.333, es decir, a que su resultado lo determine únicamente el azar.
Con 30 investigaciones donde 20 muestran efecto dañino (66%) y 10 no muestran efectos (33%), tenemos lo siguiente:
– Intervalo de confianza (IC) al 95% para la proporción de efecto protector: (0 ; 0.09)
– IC al 95% para la proporción de carencia de efecto: (0.17 ; 0.52)
– IC al 95% para la proporción de efecto dañino: (0.47 ; 0.82)
Esto es como tirar un dado que tiene sólo 3 números y que 20 veces salga un 3 y 10 veces salga un 2. Claramente este resultado sugiere que existe algún tipo de efecto por el cual el resultado de lanzar es no aleatorio. Existe un efecto que hace que significativamente (los intervalos de confianza no se solapan, lo que es una buena aproximación a un test de significatividad) salga un 3 frente a un 1, es decir, salga un efecto negativo frente a un efecto protector.
Si ahora nos dejamos de aproximaciones y utilizamos la binomial de manera correcta, y hacemos la misma simulación con n=30, 21 efectos dañinos (70%) y 9 carencia de efectos (30%), saldrá un resultado similar, pero esta vez habrá significación estadística entre sacar un 3 (efecto dañino) y sacar un 2 (carencia de efecto).
A medida que incrementamos el número de estudios es más fácil detectar diferencias significativas. Por ejemplo, con 300 estudios, si 167 reportaran efectos dañinos (55.6%) y 133 carencia de efectos (44.4%), tendríamos evidencia estadística para decir que esos resultados no han sido determinados por el azar, y que hay «algo» que hace que sistemáticamente prevalezca el efecto dañino.
También podríamos hacer el razonamiento opuesto. Imaginemos 3 estudios en los que 2 muestran efecto dañino (66%) y 1 carencia de efecto (33%). Aquí no tendríamos evidencias estadísticas acerca de si esa mayor prevalencia del efecto dañino es compatible con el azar o no. Nos falta potencia. Pero eso no significa que no exista ese efecto. Si la muestra fuera más grande, y si se guardara la misma proporción encontraríamos efectos significativos. Por eso es tan importante la valoración de los efectos acumulados, por eso no hay que considerar un único estudio sino muchos de ellos.
6. «Crud factor»
El eminente Paul Meehl empleó este término para indicar que en psicología todo está correlacionado con todo. Y que encontrar una asociación estadística entre 2 variables era siempre posible si se tenían el tamaño de muestra suficiente, es decir, si existía un nivel de potencia adecuado. Ese razonamiento puede ser extrapolable a cualquier ámbito de la ciencia.
Por tanto, seamos más puntillosos todavía. Aceptemos que siempre existe un efecto biológico (protector o dañino) por minúsculo que sea, de cualquier tipo de agente ambiental. De este modo, cuando no se encuentran efectos es lógico pensar de que no haya existido potencia suficiente para detectarlos. Así, podemos dividir los estudios que no encuentran efectos en 2 mitades, según ese «crud factor», en el 50% de ellos existiría un efecto real dañino y en el otro 50% un efecto real protector.
Siguiendo este razonamiento vamos a analizar los resultados del informe Bioinitiative 2012 (con una actualización en 2014), donde se realizó una revisión de los estudios publicados desde 2007 en relación a los efectos biológicos de la exposición a campos electromagnéticos, tanto de baja como de alta frecuencia (se incluyen estudios de laboratorio).
Daño en el ADN de exposición a radiofrecuenca: 28 estudios (14 efectos dañinos y 14 sin efectos):
– Intervalo de confianza (IC) al 95% para la proporción de efecto protector: (0.11 ; 0.45)
– Intervalo de confianza (IC) al 95% para la proporción de efecto dañino: (0.55 ; 0.89)
Conclusión: Evidencia estadística a favor del efecto dañino
Daño en los cromosomas y genoma por exposición a radiofrecuencia: 21 estudios (13 efectos dañinos y 8 sin efectos):
– Intervalo de confianza (IC) al 95% para la proporción de efecto protector: (0.05 ; 0.42)
– Intervalo de confianza (IC) al 95% para la proporción de efecto dañino: (0.68 ; 0.93)
Conclusión: Evidencia estadística a favor del efecto dañino
Daño en el ADN de exposición a campos de baja frecuencia: 41 estudios (27 efectos dañinos y 14 sin efectos):
– Intervalo de confianza (IC) al 95% para la proporción de efecto protector: (0.07 ; 0.38)
– Intervalo de confianza (IC) al 95% para la proporción de efecto dañino: (0.68 ; 0.93)
Conclusión: Evidencia estadística a favor del efecto dañino
Efectos neurológicos de la radiofrecuenca: 211 estudios entre 2007 y 2014 (144 efectos dañinos y 67 sin efectos):
– Intervalo de confianza (IC) al 95% para la proporción de efecto protector: (0.11 ; 0.22)
– Intervalo de confianza (IC) al 95% para la proporción de efecto dañino: (0.78 ; 0.89)
Conclusión: Evidencia estadística a favor del efecto dañino
Desde 2014 hasta hoy se han publicado cientos de artículos más en relación a este tópico. Invito a cualquier lector a que haga un análisis similar.
7. Indicios
En España, los indicios son admitidos por la Ley de Enjuiciamiento Criminal como válidos para establecer la condena o la absolución de una persona aunque no exista una prueba directa del hecho que se le imputa.
Volvamos al caso de la contaminación electromagnética; tenemos cientos de investigaciones (observacionales y en laboratorio) que encuentran asociaciones con diversas enfermedades y daños biológicos en humanos y animales. Tenemos muchísimos casos de apariciones de cáncer en personas viviendo en las inmediaciones de fuentes emisoras, ya hayan sido identificadas como cluster estadístico o no. Tenemos un incremento notable de personas electrosensibles, discapacidad reconocida en algunos países de nuestro entorno. No existe una prueba definitiva, es cierto, pero los indicios nos llevan a pensar que «algo hay». Esos indicios son, en definitiva, la base de la aplicación del Principio de Precaución, mencionado en el artículo 191 del Tratado de Funcionamiento de la Unión Europea (UE).
Como investigador, mi postura es sencilla: Después de analizar los 6 puntos anteriores, y aún teniendo en cuenta las limitaciones procedimentales comentadas al inicio de este post, considero que tengo indicios suficientes para pensar que la contaminación electromagnética es perjudicial para la salud, por debajo de los niveles que a día de hoy se consideran legales. Tengo indicios, no certezas. Pero esos indicios son suficientes para que yo establezca mi propio juicio al respecto.
Es después de hacer todos estos razonamientos cuando emito mi opinión acerca de los peligros de habitar cerca de líneas de alta tensión o transformadores, exponerse a la radiación de los teléfonos móviles, o tener wi-fi en las escuelas, por ejemplo. Un análisis similar se podría hacer con los efectos de los pesticidas, como he indicado unas líneas más arriba.
Cerrilismo
No se me ocurre otro término para etiquetar a las personas que no hacen este ejercicio de investigación y reflexión, y emiten sus opiniones en función de «algo que he leído por ahí» o «según lo que dice este científico en su web». Cuando una persona ante los argumentos que yo acabo de desarrollar contesta con esas frases pretendiendo ponerlas al mismo nivel de razonamiento, no se puede mantener ningún tipo de discusión científica.
Otro argumento muy manido es que «en esos estudios no se tienen en cuenta multitud de variables que pueden afectar al resultado». Ese argumento es incompleto, y por tanto erróneo. Sin duda que hay muchas variables que no se pueden controlar en los estudios observacionales, pero eso no tiene por qué sesgar las estimaciones. Para que haya un sesgo alguna de esas variables no tenidas en cuenta debe covariar con las que están incluidas en el modelo y con el término de error, lo que nos devuelve al problema de la endogeneidad antes comentado. Un adecuado tratamiento estadístico y un buen diseño de investigación podría minimizar este hipotético sesgo.
Libertad y responsabilidad
Lo maravilloso de todo esto es que somos libres de hacer lo que queramos. Una vez que conocemos la información, podemos decidir en completa libertad si nos la creemos o no, si cambiamos nuestros hábitos de vida para tratar de no dañar nuestra salud. La libertad individual es algo genial, ciertamente. Pero tiene un límite, que está en la medida en que afecta a los derechos de los demás.
Es ahí donde entra la responsabilidad. Aquellas personas encargadas de hacer políticas de salud pública, de decidir sobre la exposición a los demás (como pasa con en los colegios con el wi-fi, por ejemplo), pueden hacer lo que les venga en gana en sus casas, pero deben tener la responsabilidad de, en base a toda la evidencia resultante, aplicar la prudencia en su trabajo (El Principio de Precaución), y basarse en los indicios existentes para tomar la decisión responsable, que es la única decisión admisible.
Lecciones tardías de alertas tempranas
En 2001 la Agencia Europea del Medio Ambiente (AEMA) publicó “Lecciones tardías de alertas tempranas”, un informe en el que se mostraban efectos nocivos para salud y medio ambiente debidos a la implantación de nuevas tecnologías, donde existían indicios de su peligrosidad pero cuyas decisiones sobre su regulación no se tomaron hasta muchos años después, cuando los daños estaban hechos. En 2013 publicó el segundo volumen, incluyendo 20 nuevos casos y su implicación en política, ciencia y sociedad. El informe subraya que la existencia de algunos falsos positivos en estudios científicos, tras los que se legisló de acuerdo al principio de precaución y después se demostró que era innecesario, no es comparable al número, muy superior, de falsos negativos, ejemplos en los que se lanzaron advertencias tempranas pero no se tomó ninguna medida preventiva (Jara, 2015).
En la presentación de este segundo volumen en España, Jara (2015) se hace eco de algunas de las palabras de David Gee, uno de los científicos responsables del informe:
«A menudo hay muy pocos datos científicos directos sobre los riesgos de nuevas sustancias y tecnologías que ciertamente pueden ofrecer muchas ventajas potenciales, pero que también pueden esconder serias amenazas para la salud de las personas y de los ecosistemas. Por eso es imprescindible el principio de precaución. Esperar a tener evidencias científicas incontestables introduce demoras indeseadas y la falta de certeza científica absoluta no justifica la inacción cuando existe evidencia plausible de nocividad.»
Conclusión
No hay duda de que los resultados científicos basados en datos observacionales están sujetos a crítica. Hay muchísimo que mejorar, y hay un trabajo enorme por hacer. Pero incluso en ese universo de incertidumbre existe la posibilidad de generar conocimiento.
Una compañera me comentaba hace unos meses una frase de David Servan-Schreiber, el médico y neurocientífico francés ya fallecido por cáncer a los 50 años, la cual aparecía en su último libro:
«¡Si para hacer algo tenemos que esperar a que los epidemiólogos estén seguros, estaremos todos muertos!»
Seguimos trabajando para evitar las tragedias en un mundo podrido. Hamlet lo hizo, pero fue también víctima de su propia desventura. He admitido que huele muy mal en Dinamarca, pero el mayor problema es que parece que hay también un hedor nefando en la mente de algunos que denuncian ese olor. La ciencia tiene muchos problemas, es cierto, pero quizá el mayor de ellos es la incapacidad de aquellos que tienen que tomar decisiones en base a sus resultados.
«Las razones agudas no hacen mella en oídos tontos». No es mi frase favorita de Shakespeare, pero no se me ocurre otra que dibuje mejor este corolario.