HC

20 consejos para interpretar las afirmaciones científicas

Una sugerencia para mejorar las cosas es alentar a más científicos a involucrarse en la política. Aunque esto es plausible, no es realista esperar un aumento sustancial en la participación política de los científicos. Otra propuesta es ampliar el papel de los principales asesores científicos1, aumentar su número, su disponibilidad y su participación en los procesos políticos. Ninguno de los enfoques aborda el problema central que es la ignorancia científica entre muchos de los que votan en los parlamentos y gobiernos.

¿Tal vez podríamos enseñarles ciencia a los políticos? Es una idea atractiva, pero, ¿qué político ocupado tiene suficiente tiempo? En la práctica, los políticos responsables casi nunca leen artículos científicos o libros. La investigación relevante para el tema del día, por ejemplo, el reemplazo de la mitocondria, la tuberculosis bovina o la eliminación de residuos nucleares, es interpretada para ellos por asesores o abogados externos. Y rara vez, si es que ocurre, les llega un muy buen diseño de experimento doble ciego, replicado, aleatorio y controlado con una gran muestra y la conclusión inequívoca de que da en el punto exacto del tema que se discute.

En este contexto, sugerimos que la prioridad inmediata sea mejorar la comprensión sobre las imperfecciones naturales de la ciencia por parte de quienes hacen las políticas. La habilidad esencial que se requiere es ser capaz de cuestionar inteligentemente a los expertos y analistas, y entender la calidad, limitaciones y sesgos de la evidencia. A esto le llamamos habilidades interpretativas científicas. Estas aptitudes son más accesibles que las necesarias para entender los fundamentos mismos de la ciencia, y pueden formar parte del set general de habilidades de muchos políticos.

Con este fin, sugerimos 20 conceptos que deberían ser parte de la educación de los servidores públicos, políticos, asesores en materia de política y periodistas –y cualquier otra persona que tuviera que interactuar con la ciencia o los científicos. Los políticos con un sano escepticismo frente a los defensores científicos bien podrían armarse con este conjunto crítico de conocimiento.

No somos tan ingenuos como para creer que las mejoras en las decisiones políticas serán automáticas. Estamos plenamente conscientes de que el propio juicio científico está cargado de valor y que el sesgo y el contexto son parte integral de cómo la evidencia es recolectada e interpretada. Lo que ofrecemos es una lista simple de ideas que podría ayudar a quienes toman decisiones a analizar las maneras en que la evidencia contribuye a tomar una resolución, y que potencialmente contribuiría a esquivar las influencias exageradas de quienes tienen intereses preestablecidos. La parte más difícil –la aceptación social de las diferentes políticas– sigue estando en manos de los políticos y del proceso político general.

Por supuesto, otros tendrán listas ligeramente diferentes. Nuestro punto es que una comprensión más amplia de estos 20 conceptos por la sociedad, sería un gran paso hacia adelante.

  1. Las diferencias y la probabilidad causan variaciones. El mundo real varía de forma impredecible. La ciencia se trata mayormente de descubrir las causas de los patrones que vemos. ¿Por qué es más cálida esta década que la anterior? ¿Por qué hay más aves en algunas áreas que en otras? Hay muchas explicaciones para estas tendencias, por lo que el reto principal de la investigación es desenredar o separar la importancia del proceso de interés (por ejemplo, el efecto del cambio climático sobre las poblaciones de aves) de las otras innumerables fuentes de variación (de los cambios generalizados, tales como la intensificación agrícola y la propagación de las especies invasoras, a los procesos de escala local como los eventos al azar que determinan los nacimientos y la defunciones).

  2. Ninguna medición es exacta. Prácticamente todas las mediciones tienen un error. Si se repite el proceso de medición, se puede obtener un resultado diferente. En algunos casos, el error de medición puede ser grande en comparación con las diferencias reales. Por lo tanto, si se dice que la economía creció en un 0.13% el mes pasado, hay una ligera posibilidad de que en realidad se haya reducido. Los resultados deben de presentarse con una precisión que sea apropiada respecto del error asociado, para evitar implicar un injustificado grado de precisión.

  3. El sesgo es extenso. El diseño experimental o los dispositivos de medición pueden producir resultados atípicos en una dirección dada. Por ejemplo, determinar la conducta electoral encuestando a la gente en la calle, en casa o a través de internet, va a dar muestras de diferentes sectores de la población y todos pueden dar diferentes resultados. Dado que los estudios que reportan resultados “estadísticamente significativos” tienen más posibilidades de ser publicados, la literatura científica tiende a dar una imagen exagerada de la magnitud de los problemas o de la eficacia de las soluciones. Un experimento podría estar sesgado por las expectativas: los participantes provistos de un tratamiento podrían asumir que van a experimentar alguna diferencia y podrían comportarse diferente o reportar algún efecto. Los investigadores que recogen los resultados pueden estar influenciados al saber quién recibe el tratamiento. El experimento ideal es el doble ciego: ni los participantes ni los que recogen los resultados saben quién recibió qué. Esto podrá constituir la honestidad o precisión en ensayos con medicamentos, pero es imposible de implementar en muchos estudios sociales. El sesgo aumenta cuando los científicos se centran en la evidencia que prueba una teoría favorecida y se vuelven menos críticos de sus propios resultados o cuando dejan de buscar evidencia en contra.

  4. En cuanto al tamaño de la muestra, más grande, por lo general, es mejor. La media tomada de un gran número de observaciones, por lo general, será más informativa que la media tomada de un número menor. Es decir, una vez que se acumulan pruebas, nuestro conocimiento mejora. Esto es especialmente importante cuando los estudios están nublados por cantidades sustanciales de la variación natural y el error de medición. Por lo tanto, la eficacia de un tratamiento farmacológico variará naturalmente entre los sujetos. Su eficacia promedio puede ser más confiable y calcularse exactamente a partir de un ensayo con decenas de miles de participantes que de uno con cientos de personas.

  5. La correlación no implica causalidad. Es tentador pensar que un patrón es causa de otro. Sin embargo, la correlación puede ser una coincidencia o puede ser el resultado de que ambos patrones están causados por un tercer factor: una variable 'confusa' u 'oculta'. Por ejemplo, los ecologistas por un momento creyeron que las algas venenosas estaban matando a los peces en los estuarios; resultó que las algas crecieron en donde murieron los peces. Las algas no causaron las muertes.

  6. La regresión a la media puede ser engañosa. Es probable que ciertos patrones extremos en los datos sean, al menos en parte, anomalías atribuibles a la casualidad o al error. El siguiente conteo probablemente sea menos extremo. Por ejemplo, si las cámaras de velocidad se colocan donde ha habido una serie de accidentes, cualquier reducción en la tasa de accidentes no se podrá atribuir a la cámara; esta probablemente habría ocurrido de todos modos.

  7. La extrapolación más allá de los datos es arriesgada. Los patrones encontrados dentro de un rango determinado no se aplican necesariamente fuera de ese rango. Por lo tanto, es muy difícil predecir la respuesta de los sistemas ecológicos del cambio climático, cuando la tasa de cambio es más rápida que lo que se ha experimentado en la historia evolutiva de las especies existentes y cuando el clima extremo puede ser totalmente nuevo.

  8. Cuidado con la falacia de la tasa de referencia. La capacidad de una prueba imperfecta para identificar una condición depende de la probabilidad con que esa condición se produzca (la tasa de referencia). Por ejemplo, una persona podría tener una prueba de sangre que es ‘99% precisa’ para una enfermedad rara y un resultado positivo, sin embargo, podría ser poco probable que tenga la enfermedad. Si 10,001 personas se hacen la prueba, de las cuales solo una tiene la enfermedad, es casi seguro que esa persona obtendrá un resultado positivo, pero se podrá decir que otras 100 personas (1%) también, a pesar de que no tengan la enfermedad. Este tipo de cálculo es valioso al considerar cualquier procedimiento de detección, por ejemplo para los terroristas en los aeropuertos.

  9. Los grupos de control son importantes. A un grupo de control se le trata  exactamente de la misma forma que a un grupo experimental, excepto que no se le aplica el mismo tratamiento. Sin un grupo de control es difícil determinar si un tratamiento dado realmente tuvo un efecto. El grupo de control ayuda a los investigadores a estar razonablemente seguros de que no haya variables de confusión que afecten los resultados. A veces la gente en los ensayos informa resultados positivos, ya sea por el contexto o la persona que proporciona el tratamiento o incluso por el color de una pastilla. Esto subraya la importancia de la comparación de los resultados con un grupo de control, por ejemplo con el uso de un comprimido sin el ingrediente activo (un placebo).

  10. La asignación al azar evita el sesgo. Los experimentos deben, siempre que sea posible, asignar al azar a los individuos o grupos para las intervenciones. Al comparar el rendimiento escolar de los niños cuyos padres adoptan un programa de salud, con el de los hijos de padres que no, puede darse un sesgo (por ejemplo, las familias con mejor educación podrían ser más propensas a participar en el programa). Un experimento bien diseñado sería seleccionar al azar a algunos padres para recibir el programa, mientras que otros no lo hacen.

  11. Busque la replicación, no la pseudo-replicación. Los resultados consistentes a lo largo de muchos estudios reproducidos en poblaciones independientes, tienden a ser sólidos. Los resultados de varios de estos experimentos se pueden combinar en una revisión sistemática o un meta análisis para proporcionar una visión general del tema con una mayor potencia estadística que cualquiera de los estudios individuales. La aplicación de una intervención a varios individuos en un grupo, por ejemplo a una clase de niños, podría ser engañosa porque los niños tienen muchas características en común aparte de la intervención. Los investigadores podrían cometer el error de 'pseudo-replicación' si generalizan a partir de estos niños a una población más amplia que no comparte los mismos puntos en común. La pseudo-replicación conduce a la fe injustificada en los resultados. La pseudo-replicación de estudios sobre la abundancia de bacalao en los Grandes Bancos de Terranova, Canadá, por ejemplo, ha contribuido al colapso de lo que alguna vez fue la producción más grande de bacalao en el mundo.

  12. Los científicos son humanos. Los científicos tienen un gran interés en la promoción de su trabajo, a menudo por una buena posición social y para obtener más fondos para la investigación, e incluso a veces con fines de lucro directo. Esto puede llevar a  reportar selectivamente los resultados y, en ocasiones, a la exageración. La revisión por pares no es infalible: los editores de revistas podrían favorecer los resultados positivos y la importancia del interés periodístico. Fuentes múltiples, independientes de las pruebas y la replicación, son mucho más convincentes.

  13. La significación estadística es importante. Expresada como P, la significación estadística es una medida de qué tan probable es que un resultado ocurra por casualidad. Así, P=0.01 significa que hay una probabilidad de 1 en 100 de que lo que parece el efecto de un tratamiento, haya ocurrido al azar, y de que en realidad no ha habido ningún efecto. Por lo general los científicos reportan como resultados significativos cuando el valor de P de la prueba es inferior a 0,05 (1 en 20).

  14. Separe al efecto nulo de la falta de significado estadístico. La falta de un resultado estadísticamente significativo (por ejemplo un valor de P> 0,05) no significa que no hubo un efecto subyacente: significa que no se detectó ningún efecto. Un estudio pequeño puede no tener la fuerza para detectar una diferencia real. Por ejemplo, pruebas en cultivos de algodón y de papa que se han modificado genéticamente para producir una toxina para protegerlos de insectos dañinos, sugirieron que no hubo efectos adversos sobre los insectos beneficiosos, tales como los polinizadores. Sin embargo, ninguno de los experimentos tenía muestras de gran tamaño suficientes para detectar los efectos sobre las especies beneficiosas, si es que hubiese habido alguno.

  15. El tamaño de efecto importa. Las respuestas pequeñas son menos propensas a ser detectadas. Un estudio con muchas repeticiones podría dar lugar a un resultado estadísticamente significativo, pero el tamaño del efecto podría ser pequeño (y por eso, tal vez, poco significativo). La importancia del tamaño del efecto es una cuestión biológica, física o social y no una estadística. En la década de 1990 el editor de la revista norteamericana Epidemiology les pidió a los autores que dejaran de usar la significación estadística en los manuscritos presentados porque estaban continuamente malinterpretando el sentido de las pruebas de significación, lo que resulta en recomendaciones ineficaces o equivocadas para la política de salud pública.

  16. La relevancia del estudio limita las generalizaciones. La relevancia de un estudio depende de qué tanto las condiciones bajo las cuales está hecho, se asemejen a las condiciones del tema analizado. Por ejemplo, existen límites a las generalizaciones que se pueden hacer a partir de experimentos con animales de laboratorio o para seres humanos.

  17. Los sentimientos influyen en la percepción del riesgo. En términos generales, el riesgo puede considerarse como la probabilidad de que un evento ocurra en un periodo de tiempo, multiplicado por las consecuencias en caso de producirse el evento. La percepción de riesgo de las personas está influenciada de manera desproporcionada por muchas cosas, incluyendo la rareza del evento, cuánto control se cree tener, la adversidad de los resultados y si el riesgo es voluntario o no. Por ejemplo, la gente en los Estados Unidos subestima los riesgos asociados de tener un arma de fuego en su casa multiplicado por 100 y sobreestiman los riesgos de vivir cerca de un reactor nuclear multiplicado por 10.

  18. La confluencia de factores cambia los riesgos. Es posible calcular las consecuencias de los eventos individuales, como una marea extrema, las fuertes lluvias y cuando los trabajadores clave se ausentan. Sin embargo, si se interrelacionan los hechos, (por ejemplo, una tormenta causa una marea alta o una fuerte lluvia impide a los trabajadores acceder al sitio), entonces la probabilidad de su co-ocurrencia es mucho mayor de la que se podría esperar. La garantía de que las agencias de calificación crediticia de los grupos de hipotecas de alto riesgo tuvieran un muy bajo riesgo de no pago, fue un elemento importante en el colapso de los mercados de crédito del 2008.

  19. Los datos pueden ser seleccionados intencionalmente. La evidencia puede ser arreglada para apoyar un punto de vista. Para interpretar una aparente asociación entre el consumo de yogur durante el embarazo y el asma posterior en la descendencia, sería necesario saber si los autores se propusieron probar esta única hipótesis o llegaron a este hallazgo mediante un enorme conjunto de datos. En contraste, la evidencia del bosón de Higgs explica qué tan duro tuvieron que buscarlo los investigadores -el efecto de "buscar en otro lado”. La pregunta que debemos hacernos es: "¿Qué no nos fue dicho?”

  20. Medidas extremas pueden inducir al error. Cualquier recopilación de medidas (la efectividad de una escuela dada, por ejemplo) mostrará variabilidad debido a las diferencias en la capacidad innata (la competencia del profesorado), además de las tomas de muestras (los niños podrían ser, por azar, una muestra atípica con complicaciones), además del sesgo (la escuela podría estar en una zona donde la gente es inusualmente poco saludable), más el error de medición (los resultados pueden ser medidos de diferentes maneras para diferentes escuelas). Sin embargo, la variación resultante se interpretara típicamente solo como diferencias en la capacidad innata, haciendo caso omiso de las otras fuentes. Esto se convierte en un problema con las declaraciones que describen un resultado extremo (‘la tasa de aprobación duplicada') o comparando la magnitud de la extrema con la media ('la tasa de aprobación en la escuela x es de tres veces el promedio nacional’) o el rango (‘hay una diferencia de x veces entre las escuelas de mayor y menor rendimiento’). Las tablas de clasificación, en particular, son resúmenes raramente fiables del desempeño.

Esta lista le ayudará a los no-científicos para cuestionar a los asesores y para comprender las limitaciones de la evidencia, dicen William J. Sutherland, David Spiegelhalter y Mark A. Burgman, autores de este texto.

Referencia:

  • Sutherland W.J., Spiegelhalter D. & Burgman M. (2013). Policy: Twenty tips for interpreting scientific claims, Nature, 503 (7476) 335-337. DOI:10.1038/503335a