Google+

Bajándole los humos a "p"

El pasado día 2 de Agosto Steven Novella (@stevennovella )‏ publicó en "science based medicine" "0.05 or 0.005? p-value wars continue" en el que repasaba la sugerencia realizada entre otros por John P.A. Ioannidis en una editorial publicada en PsyArXiv bajo el título "Redefine Statistical Significance"creo que su traducción puede resultar de interés para quienes se quieran adentrar en el mundo de la investigación al 100% al principio me permito una floritura creo que comprensible en nuestro medio.


_________________________________


A lo largo del tiempo la FIFA ha cambiado las dimensiones del campo de juego, específicamente las del área de penalti y la altura y anchura de la portería. Lo han hecho para equilibrar las oportunidades de delanteros y portero y hacer el juego más interesante para los espectadores.

Los científicos están debatiendo ajustes similares en la significación estadística, para equilibrar el balance entre falsos positivos y falsos negativos. Como en el caso de delanteros y portero, algunos cambios son un juego de suma cero si disminuyes los falsos positivos incrementas los falsos negativos y viceversa. Donde está el equilibrio perfecto es una cuestión complicada y un tema de debate creciente.

Un artículo reciente de una larga lista de autores, incluidos grandes popes como John P.A. Ioannidis sugieren que el valor de p que habitualmente se usa como umbral de significación estadística debe cambiar de 0.05 a 0.005 para los campos de biomedicina y psiquiatría. Escriben:
"Para los campos en los que el umbral para definir significación estadística de nuevos descubrimientos es p<0,05 proponemos un cambio a p<0,005. Este simple paso podría mejorar inmediatamente la reproducibilidad de la investigación científica en muchos campos. Los resultados que actualmente se llaman "significativos" pero no alcanzan este nuevo umbral podrían pasar a llamarse "sugerentes". Si bien los estadísticos ya sabían de la relativa debilidad de usar p≈0,05 como umbral y la propuesta de bajarlo a 0,005 no es nueva, ahora una masa crítica de investigadores apoya este cambio."
El p-valor se define como la probabilidad de que los resultados de un experimento se desvíen del nulo tanto como lo hicieron o más si la hipótesis nula es correcta. Si esto te parece difícil de entender no te sientas mal. Muchos científicos no pueden dar la definición técnica correcta. Para simplificarlo, ¿cual es la probabilidad de que obtuvieras esos resultados (o mayores) si tu hipótesis no es cierta? En ciencias de la salud generalmente esto se refiere a un efecto, como la diferencia en la reducción de dolor entre un placebo y un tratamiento experimental. ¿Es estadísticamente significativa? Un p-valor de 0,05, el umbral tradicional, significa que existe un 5% de posibilidad de que obtuvieras esos resultados sin que exista un efecto real. Un p-valor de 0,005 significa que hay un 0,5% de posibilidad; un cambio de 1/20 a 1/200.

Existen importantes problemas con la sobredependencia del p-valor. Nunca se pretendió que fuera una medida de si un efecto era o no real, pero desafortunadamente el deseo humano de simplificar le ha colocado en ese papel. Además, la gente tiende a virar su significado interpretando que es la probabilidad de que el efecto sea real (en lugar de que LOS DATOS dicen lo que dicen). Sin embargo, esta inversión del significado no es válida por muchos motivos. Un estudio con un p-valor  de 0,05 no significa que haya un 95% de probabilidad de que el efecto sea real. Podría haber aún sólo una pequeña probabilidad de que el efecto sea real, dependiendo de otros factores.

Otorgar demasiada importancia al p-valor conduce de forma demostrable al llamado p-hacking. Existen formas sutiles (y no tan sutiles a veces) en las que los investigadores pueden sesgar el resultado de un estudio para traspasar el umbral mágico de 0,05 declarando sus resultados significativos y consiguiendo que se publiquen (otro grave sesgo científico -nota del trad.-). Esto a su vez conduce a un problema de reproducibilidad de la investigación y a inundar la literatura científica con una masa de estudios dudosos.

Los autores señalan esencialmente que el equilibrio entre falsos positivos y falsos negativos se ha alejado del punto óptimo. A lo largo de los años los investigadores han descubierto como jugar con el p-valor. En combinación con la tremenda presión de publicar resultados positivos y los sesgos que todos tenemos esto ha llevado a un exceso de hallazgos preliminares que mayoritariamente son falsos positivos.

Lo que los autores proponen alejaría ciertamente el equilibrio de los falsos positivos. Es una solución sencilla, pero podría no ser óptima, o no suficiente por si misma. Aunque nos guste la sugerencia de considerar 0,005 como estadísticamente significativo, y lo que esté entre 0,05 y 0,005 como "sugerente". Esto está más cerca de la verdad, y probablemente ayudará a cambiar la forma en la que los científicos y el público piensan respecto a los p-valor. Yo mismo he hecho este cambio mental. No me emociono acerca de los resultados con un p-valor cercano a 0,05. Simplemente no significa mucho.

El lado oscuro, por supuesto, es que esto aumentará el número de falsos negativos. Dado lo sobrepasada que está la literatura con los estudios con falsos positivos, creo que es un buen cambio. Además, el umbral de p-valor no es la única variable. Los autores sugieren que se podría incrementar el tamaños de un estudio un 70% para mantener el ratio de falsos negativos donde está. Visto de esta forma no se trataría de un juego de suma zero. Puedes disminuir los falsos positivos y los falsos negativos aumentando el tamaño del estudio, o su fuerza.

Siendo esto cierto puede ser difícil para algunos investigadores, especialmente los que cuentan con pocos fondos, como los investigadores jóvenes (o los de disciplinas secundarias -N. de trad-). Para las enfermedades raras o cuestiones en las que es difícil enrolar a pacientes, aún disponiendo de fondos, puede ser duro alcanzar las cifras necesarias para conseguir p<0,005. Pero ¿y qué? pueden realizar su pequeño estudio y si consiguen p-valores marginales pueden incluso publicarlos. Sólo que en vez de llamar a sus resultados "significativos" han de llamarlos "sugerentes".

Podría haber consecuencias no deseadas de este cambio, pero en vista del grave problema con los estudios de falsos positivos defiendo que hagamos el cambio y veamos qué pasa. Podemos hacer ajustes posteriormente si es necesario.

Además, no quiero poner el foco en dónde situar el p-valor para distraer de la cuestión más profunda sobre la propia utilidad del p-valor en si. Algunas revistas han ido más allá prohibiendo completamente los p-valor en favor de otros métodos de análisis estadístico. Creo que es draconiano, pero tienen la idea correcta, poner al p-valor en su lugar.

Por ejemplo, el tamaño del efecto es extremadamente importante, pero a menudo descuidado. Más importante que el p-valor es alguna medida de la relación señal/ruido. ¿Cuál es el tamaño del efecto en comparación con lo que se está midiendo y la incertidumbre del resultado? Además, los análisis bayesianos pueden ser muy útiles. Un análisis bayesiano pregunta que realmente los investigadores piensan que hacen: ¿cual es la probabilidad de mi hipótesis dados estos datos? En un comentario en Nature sobre este tema sugieren que muchos investigadores no tienen habilidades estadísticas para hacer análisis bayesianos. Nuevamente digo ¿y qué? La respuesta es mejorar las habilidades estadísticas entre el investigador medio.

Este es, de hecho, el problema inherente. Muchos investigadores no comprenden las limitaciones del p-valor, o sucumben a la tentación de depender de esta medida porque es la vía rápida a la significación estadística y la publicación. También muchos no comprenden completamente la naturaleza del p-hacking y como evitarlo. Necesitamos más sofisticación en el mínimo análisis estadístico aceptable y la metodología de la investigación en salud.

Todo indica que el equilibrio ha cambiado de forma inaceptable hacia los falsos positivos. Probablemente necesitemos un cambio cultural completo en la comunidad de investigación en salud publicando menos estudios pero más rigurosos e indicando claramente cuales son estudios preliminares y eliminando el sesgo de publicación respecto a los estudios con resultados negativos.

Este cambio en el umbral para la significación estadística no será suficiente, pero creo que es un movimiento en la dirección correcta.

Temporary skin tattoos for patient identification

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4864418/figure/f1/

After our last post about an adverse event due to patient identification wristband i think is mandatory work on an alternative and better system.

As you may know i love technology and i share a lot of articles about innovations on healthcare. On the last year wearables was a main topic; made from a mix of nanocomponents(1) and new materials they promised us a "permanent" monitorization of vital signs beyond hospital walls thanks to wireless connectivity(2).

In patient identification RFID is an eternal promise a decade ago but is far from our reality, it can lead to automated systems of record and traceability but we are tired of waiting.

We need a easy cheap and practical solution now.

Yesterday in the loneliness of the swimming pool i remembered the "calcomanías" that i used to wear when i was child. It was a one picture temporary tattoo for adhere to skin easy to use, only needed some water.

Now i search about it and i find it is now a fashion and there are a do it yourself system without water to adhere to skin. They are called "tattoonies" and have a limited duration from two to seven days and are easy to remove with alcohol or acetone.

https://www.tattooforaweek.com/en/Pink-Barcode-Tattoo

With or without barcode or other technology inside i think is a good idea for patient identifier, i know there are some risk of skin reactions but healthcare and socialcare systems needs a solution for these issue.

Head don't stop

Referrals:

1)Zucca A, Cipriani C, Sudha null, Tarantino S, Ricci D, Mattoli V, et al. Tattoo conductive polymer nanosheets for skin-contact applications. Adv Healthc Mater. mayo de 2015;4(7):983-90.

2)Bandodkar AJ, Molinnus D, Mirza O, Guinovart T, Windmiller JR, Valdés-Ramírez G, et al. Epidermal tattoo potentiometric sodium sensors with wireless signal transduction for continuous non-invasive sweat monitoring. Biosens Bioelectron. 15 de abril de 2014;54:603-9.

La pulsera que nos ata #SegPac


El pasado 4 de Agosto publiqué el siguiente tuit acompañado de la imagen que encabeza esta entrada.
En dicha foto el punto indicado con * corresponde al lugar de inserción de una vía IV periférica y la zona marcada con ** es el emplazamiento de una pulsera de identificación que la paciente del caso portaba en la residencia sociosanitaria.

Bien, escribo esta entrada por la inusitada cantidad de interacciones recibidas tanto en twitter (ver hilo del tuit) como en facebook.

En primer lugar voy a recomendar la lectura del "case report" porque describe una circunstancia muy concreta lo tenéis traducido aqui.

A partir de ahí 2 observaciones.

La primera: En este caso el artículo no está enfocado en el uso de la pulsera identificativa sino en el síndrome compartimental como complicación rara de una extravasación debida a la presencia de la pulsera.

La segunda: La pulsera no fue colocada en el centro donde ocurre el EA sino que venía con la paciente desde una residencia sociosanitaria. El EA ocurre con una rapidez bastante inusitada pues el artículo relata que la vía se puso a las 22h, se revisó a las 0h y a las 4h presentaba el aspecto de la foto (o peor pues la foto es posterior).

Pese a que muchas de las interacciones han sido más bien "reactivas" respecto al uso de pulseras de identificación me quedo con aquellas que señalan su necesidad imperiosa como elemento de seguridad pero quiero señalar que ni la respuesta afirmativa del paciente ni la pulsera (o su ausencia) son las que "causan" un evento adverso relacionado con una identificación errónea del paciente.

La identificación del paciente es, digamos, un subproceso, que se debe realizar rutinariamente de forma ideal antes de cada procedimiento. El nivel de riesgo de fallo de identificación se suele decir que es muy bajo pero también es conocido que sus consecuencias suelen ser muy graves. Hay algunos estudios que investigan el fallo en el propio proceso de identificación en entornos simulados y los datos no son tranquilizadores (1).

En nuestro propio estudio indagamos la capacidad de identificación del propio paciente en un subconjunto de pacientes concreto según su estado cognitivo y confirmamos que sin importar el tipo de pregunta que se realice (abierta o cerrada) los pacientes con peor estado cognitivo según el test de Pfeiffer presentaban mayor error en su identificación (2). Ello confirma lo que el caso señala sobre la necesidad de usar las pulseras identificativas en los pacientes de ciertos grupos de riesgo.

La pulsera identificativa constituye para muchas enfermeras un obstáculo a la hora de establecer vías venosas en los miembros superiores sobre todo cuando se inicia en los extremos distales y aunque formalmente se disponga de un método de reposición de las pulseras todos sabemos lo lento que resultan ciertos trámites en los hospitales (grandes o pequeños). Tal vez pulseras que permitan abrir y cerrar serían una solución; en todo caso la revisión regular de las vías se ha de incrementar si existen circunstancias que lo aconsejean.

 
BIBLIOGRAFÍA:


1) Philip L. Henneman PL, Fisher DL, Henneman EA, Pham TA, Campbell MM, Nathanson BH. Patient identification errors are common in a simulated setting. Annals of emergency medicine 2010; 55(6): 503-9.
2) Meijome Sánchez XM, Prieto Blanco AM, Basante Rodriguez A, Gonzalez Cea A, Fernandez Colinas S.  Fallo en la identificación del paciente con deterioro cognitivo; comparación entre pregunta abierta y pregunta cerrada Comunicación en XVIII Encuentro internacional de investigación en cuidados Vitoria 2013

Indice de seguridad de etiquetado #SegPac

https://twitter.com/StopErroresMed/status/892478410580250626

Esta entrada debería titularse "El sueño de una noche de verano" pero no perdamos la confianza en que de una manera u otra se haga algo EFECTIVO para solucionar un problema que ya sabemos que existe y cuyos efectos podemos mostrar con cifras.

La gente de @StopErroresMed (http://www.stoperroresdemedicacion.org) lleva mucho tiempo mostrando los datos, los ejemplos y "empujando" por una solución al grave problema de la #Isoapariencia el pasado día 2 de Agosto lanzaron este tuit quejándose del caso omiso que una marca hace de una de las recomendaciones concretas: vinCRIStina - metoTREXATO

En el diálogo en la red hice una ironía dando a entender que pudiera ser que los laboratorios no conocieran las recomendaciones concretas sobre el envasado y etiquetado de los medicamentos para terminar con esto:
Básicamente la idea es establecer una escala con la que valorar cada presentación farmaceútica en lo que respecta a la seguridad de su etiquetado en lo que respecta a este como factor de los errores de medicación.

Ha de tenerse en cuenta que en ciertos entornos profesionales la presentación utilizada difiere de la comercializada lo que trasladaría la obligación de un etiquetado seguro a la instancia donde se realice la manipulación (normalmente fragmentación) para el uso; esto es un problema dado que, además, alguna de estas manipulaciones vienen condicionadas por normas de protección de riesgos laborales de reciente publicación.

También ha de tenerse en cuenta que estamos hablando de productos con, por lo menos, un doble envasado: la caja exterior (la que se suele dispensar en la farmacia de la calle a pacientes ambulantes) y el envoltorio individual de cada dosis que en muchos casos es que recibe el profesional que administra el medicamento.

Como ejemplos de referencia os propongo las recomendaciones de los documentos "Information desing for Patient safety. A guide to the graphic desing of medication packaging" 2º edición y "Desing for patient safety: a guide to the labelling and packaging of injectable medicines" publicados hace 10 años¡¡¡ por el  NHS.

Para el ejemplo práctico voy a referirme únicamente al envasado de medicación no inyectable en dosis unitaria que se designa como "primary packaging" que es el que solemos recibir los profesionales en los puntos de atención directa donde se administra medicación a los pacientes. La escala tendría varios puntos a comprobar; algunos serían de respuesta simple (Si/No) y otros podrían tener una puntuación gradual (No cumple/básico/óptimo); con la suma de los puntos obtenidos sobre el total posible tendríamos ese índice X/Y que señalé.


Ítem
Respuesta
Puntuación
Superficie de impresión
No reflectante
Si/No
Integridad del texto
Texto íntegro en cada dosis
Si/No
Legibilidad del texto contraste
Texto legible en cada dosis sobre el fondo
Poco/Normal/Optimo
Legibilidad del texto tamaño
Texto legible en cada dosis tamaño
Poco/Normal/Optimo
Datos completos
Principio Activo, Dosis, Caducidad
Si/No

Así pues un medicamento "ideal" desde el punto de vista de la seguridad del envasado tendría 5/5 puntos en su envase primario (unidosis). La propuesta tiene la limitación de que alguno de los parámetros es subjetivo lo que haría que surgieran diferencias entre las apreciaciones de los diferentes profesionales.

¿Quien se anima para hacer una propuesta similar para las presentaciones de medicamentos inyectables?

Por otra parte ya sabemos que en algunos entornos de trabajo los medicamentos de este tipo de presentación se mantienen durante cierto tiempo en lo que podríamos llamar "envasado transitorio" dispuestos para su uso, dicha disponibilidad es propensa al error sobre todo en áreas críticas y desde hace mucho existen a disposición sistemas de etiquetado secundario como este:

https://safetyandquality.gov.au/wp-content/uploads/2012/02/ANZCA-and-Commission-Joint-statement-on-user-applied-labelling-standardisation.pdf

Creo que se pueden exigir acciones frente a la #isoapariencia a la industria mientras dentro del sistema seguimos procesando los medicamentos sin etiquetarlos de forma adecuada, pero así no resolveremos algunos de los errores que motivan esta reivindicación.

Un último apunte para la utopía; una vez establecida este tipo de escala de forma sistemática e institucional ¿no debería incluirse dentro de los criterios a la hora de los concursos de adquisición de productos?