El pasado día 2 de Agosto Steven Novella (@stevennovella ) publicó en "science based medicine" "0.05 or 0.005? p-value wars continue" en el que repasaba la sugerencia realizada entre otros por John P.A. Ioannidis en una editorial publicada en PsyArXiv bajo el título "Redefine Statistical Significance"creo que su traducción puede resultar de interés para quienes se quieran adentrar en el mundo de la investigación al 100% al principio me permito una floritura creo que comprensible en nuestro medio.
_________________________________
A lo largo del tiempo la FIFA ha cambiado las dimensiones del campo de juego, específicamente las del área de penalti y la altura y anchura de la portería. Lo han hecho para equilibrar las oportunidades de delanteros y portero y hacer el juego más interesante para los espectadores.
Los científicos están debatiendo ajustes similares en la significación estadística, para equilibrar el balance entre falsos positivos y falsos negativos. Como en el caso de delanteros y portero, algunos cambios son un juego de suma cero si disminuyes los falsos positivos incrementas los falsos negativos y viceversa. Donde está el equilibrio perfecto es una cuestión complicada y un tema de debate creciente.
Un artículo reciente de una larga lista de autores, incluidos grandes popes como John P.A. Ioannidis sugieren que el valor de p que habitualmente se usa como umbral de significación estadística debe cambiar de 0.05 a 0.005 para los campos de biomedicina y psiquiatría. Escriben:
"Para los campos en los que el umbral para definir significación estadística de nuevos descubrimientos es p<0,05 proponemos un cambio a p<0,005. Este simple paso podría mejorar inmediatamente la reproducibilidad de la investigación científica en muchos campos. Los resultados que actualmente se llaman "significativos" pero no alcanzan este nuevo umbral podrían pasar a llamarse "sugerentes". Si bien los estadísticos ya sabían de la relativa debilidad de usar p≈0,05 como umbral y la propuesta de bajarlo a 0,005 no es nueva, ahora una masa crítica de investigadores apoya este cambio."El p-valor se define como la probabilidad de que los resultados de un experimento se desvíen del nulo tanto como lo hicieron o más si la hipótesis nula es correcta. Si esto te parece difícil de entender no te sientas mal. Muchos científicos no pueden dar la definición técnica correcta. Para simplificarlo, ¿cual es la probabilidad de que obtuvieras esos resultados (o mayores) si tu hipótesis no es cierta? En ciencias de la salud generalmente esto se refiere a un efecto, como la diferencia en la reducción de dolor entre un placebo y un tratamiento experimental. ¿Es estadísticamente significativa? Un p-valor de 0,05, el umbral tradicional, significa que existe un 5% de posibilidad de que obtuvieras esos resultados sin que exista un efecto real. Un p-valor de 0,005 significa que hay un 0,5% de posibilidad; un cambio de 1/20 a 1/200.
Existen importantes problemas con la sobredependencia del p-valor. Nunca se pretendió que fuera una medida de si un efecto era o no real, pero desafortunadamente el deseo humano de simplificar le ha colocado en ese papel. Además, la gente tiende a virar su significado interpretando que es la probabilidad de que el efecto sea real (en lugar de que LOS DATOS dicen lo que dicen). Sin embargo, esta inversión del significado no es válida por muchos motivos. Un estudio con un p-valor de 0,05 no significa que haya un 95% de probabilidad de que el efecto sea real. Podría haber aún sólo una pequeña probabilidad de que el efecto sea real, dependiendo de otros factores.
Otorgar demasiada importancia al p-valor conduce de forma demostrable al llamado p-hacking. Existen formas sutiles (y no tan sutiles a veces) en las que los investigadores pueden sesgar el resultado de un estudio para traspasar el umbral mágico de 0,05 declarando sus resultados significativos y consiguiendo que se publiquen (otro grave sesgo científico -nota del trad.-). Esto a su vez conduce a un problema de reproducibilidad de la investigación y a inundar la literatura científica con una masa de estudios dudosos.
Los autores señalan esencialmente que el equilibrio entre falsos positivos y falsos negativos se ha alejado del punto óptimo. A lo largo de los años los investigadores han descubierto como jugar con el p-valor. En combinación con la tremenda presión de publicar resultados positivos y los sesgos que todos tenemos esto ha llevado a un exceso de hallazgos preliminares que mayoritariamente son falsos positivos.
Lo que los autores proponen alejaría ciertamente el equilibrio de los falsos positivos. Es una solución sencilla, pero podría no ser óptima, o no suficiente por si misma. Aunque nos guste la sugerencia de considerar 0,005 como estadísticamente significativo, y lo que esté entre 0,05 y 0,005 como "sugerente". Esto está más cerca de la verdad, y probablemente ayudará a cambiar la forma en la que los científicos y el público piensan respecto a los p-valor. Yo mismo he hecho este cambio mental. No me emociono acerca de los resultados con un p-valor cercano a 0,05. Simplemente no significa mucho.
El lado oscuro, por supuesto, es que esto aumentará el número de falsos negativos. Dado lo sobrepasada que está la literatura con los estudios con falsos positivos, creo que es un buen cambio. Además, el umbral de p-valor no es la única variable. Los autores sugieren que se podría incrementar el tamaños de un estudio un 70% para mantener el ratio de falsos negativos donde está. Visto de esta forma no se trataría de un juego de suma zero. Puedes disminuir los falsos positivos y los falsos negativos aumentando el tamaño del estudio, o su fuerza.
Siendo esto cierto puede ser difícil para algunos investigadores, especialmente los que cuentan con pocos fondos, como los investigadores jóvenes (o los de disciplinas secundarias -N. de trad-). Para las enfermedades raras o cuestiones en las que es difícil enrolar a pacientes, aún disponiendo de fondos, puede ser duro alcanzar las cifras necesarias para conseguir p<0,005. Pero ¿y qué? pueden realizar su pequeño estudio y si consiguen p-valores marginales pueden incluso publicarlos. Sólo que en vez de llamar a sus resultados "significativos" han de llamarlos "sugerentes".
Podría haber consecuencias no deseadas de este cambio, pero en vista del grave problema con los estudios de falsos positivos defiendo que hagamos el cambio y veamos qué pasa. Podemos hacer ajustes posteriormente si es necesario.
Además, no quiero poner el foco en dónde situar el p-valor para distraer de la cuestión más profunda sobre la propia utilidad del p-valor en si. Algunas revistas han ido más allá prohibiendo completamente los p-valor en favor de otros métodos de análisis estadístico. Creo que es draconiano, pero tienen la idea correcta, poner al p-valor en su lugar.
Por ejemplo, el tamaño del efecto es extremadamente importante, pero a menudo descuidado. Más importante que el p-valor es alguna medida de la relación señal/ruido. ¿Cuál es el tamaño del efecto en comparación con lo que se está midiendo y la incertidumbre del resultado? Además, los análisis bayesianos pueden ser muy útiles. Un análisis bayesiano pregunta que realmente los investigadores piensan que hacen: ¿cual es la probabilidad de mi hipótesis dados estos datos? En un comentario en Nature sobre este tema sugieren que muchos investigadores no tienen habilidades estadísticas para hacer análisis bayesianos. Nuevamente digo ¿y qué? La respuesta es mejorar las habilidades estadísticas entre el investigador medio.
Este es, de hecho, el problema inherente. Muchos investigadores no comprenden las limitaciones del p-valor, o sucumben a la tentación de depender de esta medida porque es la vía rápida a la significación estadística y la publicación. También muchos no comprenden completamente la naturaleza del p-hacking y como evitarlo. Necesitamos más sofisticación en el mínimo análisis estadístico aceptable y la metodología de la investigación en salud.
Todo indica que el equilibrio ha cambiado de forma inaceptable hacia los falsos positivos. Probablemente necesitemos un cambio cultural completo en la comunidad de investigación en salud publicando menos estudios pero más rigurosos e indicando claramente cuales son estudios preliminares y eliminando el sesgo de publicación respecto a los estudios con resultados negativos.
Este cambio en el umbral para la significación estadística no será suficiente, pero creo que es un movimiento en la dirección correcta.
EDICIÓN 21/8/2017.
Lo grande de las RRSS es que si no es la interacción es simplemente tener buenas fuentes "sintonizadas" lo que te permite seguir mejorando. En este caso gracias a @emulenews viene muy a cuento el estudio "Estimating the evidential value of significant results in psychological science"en el que se calcula el factor bayesiano de nada menos que 287000 hallazgos científicos en psicología publicados en 35515 artículos. Las conclusiones son devastadoras:
Concluimos que debido a que el umbral de aceptación se ha establecido demasiado bajo para los hallazgos en psicología, una proporción sustancial de los resultados publicados tienen un soporte de evidencia débil.Esto apoya la medida propuesta en la editorial de la que trata el artículo que traducimos recordando que la misma por si sola no bastará para mejorar la evidencia que sostiene o debería sostener nuestro trabajo.