Traducción de "
5 tips for understanding data in meta analyses" de
Hilda Bastian
Hay un diluvio de estudios científicos de todo tipo, miles cada día. A menudo hay varios estudios buscando respuestas sobre el mismo tema, pero puede haber docenas e incluso centenares de ellos. El metanálisis es un grupo de técnicas estadísticas que usan datos de más de un estudio para combinarlos y analizarlos como un nuevo conjunto de datos.
No se empezó a hablar de metanálisis hasta los años 70. Ahora cada día se publican docenas de artículos con metanálisis y en menos de 5 años se duplicará el número de los publicados en un año. Sin embargo, los métodos del metanálisis siguen constituyendo un misterio para mucha gente.
Este comic es un forest plot, un estilo de visualización de datos para los resultados de un metanálisis. Alguna gente les llama “blobbograms”. Cada línea horizontal con un cuadrado en el medio representa el resultado de un estudio diferente. La longuitud de esa línea horizontal representa el intervalo de confianza de sus resultados. Esto te proporciona información sobre cuanta incertidumbre existe en torno a un resultado cuanto más corta más confianza podemos tener en ese resultado (
Aquí la explicación).
El cuadrado se denomina el punto estimado o el "resultado" del estudio si lo prefieres. A menudo su tamaño va acorde con el peso que el estudio tiene en el metanálisis. Cuanto más grande, más confianza debemos tener en el resultado.
El tamaño del punto estimado es un eco de la longitud del intervalo de confianza. Son dos puntos de vista de la misma información. Un cuadrado pequeño y una linea larga dan menos confianza que un gran cuadrado en una línea corta.
El diamante en la parte inferior se llama resumen estimado. Representa el resumen de los resultados de los 3 estudios combinados. No se trata sólo de sumar los resultados de los estudios y dividirlos por 3. Se trata de un promedio ponderado. Los estudios más grandes con más eventos cuentan más.
Las esquinas derecha e izquierda del diamante son los límites de su intervalo de confianza. Con cada estudio que se añada al metanálisis estas esquinas se acercarán entre ellas y se moverán a derecha o izquierda según los resultados añadidos se inclinen en una u otra dirección.
La línea central es la "linea de no efecto". Si un resultado la toca o la cruza, no será significativo estadísticamente. (Un concepto complicado
explicado aquí).
En biomedicina, los forest plots son la norma. Pero en otros campos, como la psicología, el resultado de los metanálisis con frecuencia se presentan como tablas de datos. Eso significa que cada punto de datos (el principio y el final de cada intervalo de confianza y sucesivamente) son números en una columna en lugar de estar representados en un gráfico (
ejemplo).
Es un trabajo pesado interpretar las tablas y es fácil perderse en los detalles. Por otra parte, la visualización de los datos puede proporcionar una rápida, fuerte y falsa impresión. Vale la pena dedicar tiempo a los detalles. He aquí 5 claves para tener una perspectiva razonable. Usaré metanálisis de estudios clínicos comparando dos grupos porque son los más comunes.
1) No pases a las conclusiones sin examinar detenidamente el contexto y la prespectiva.
Busca el tema concreto y la medida estadística. En el ejemplo falso de abajo, el tema son los resultados de una prueba de detección de algo (puede ser estancias hospitalarias o ataques cardíacos por ejemplo).
En este caso la línea vertical de "no efecto" es 1. Para otras medidas podría ser 0. Es uno porque la medida estadística es un RR (ratio de riesgo): "95% IC" es el nivel de significación para el intervalo de confianza. (
aquí otra explicación). Hay una segunda línea vertical de puntos: indica donde cae el promedio de los resultados combinados.
A excepción del primero estos estudios imaginarios son bastante parecidos. Ese primer estudio no tiene mucha fuerza. Su intervalo de confianza es tan largo que el extremo izquierdo no cabe en el gráfico lo que no es bueno. Por eso tiene una flecha.
Lo que está a izquierda y derecha no es siempre lo mismo. Lo elige quien realiza el metanálisis y es su forma de enmarcar el tema. Su forma de funcionar en conjunto suele ser fácil y obvia pero no siempre.
Por ejemplo,
este es uno en el que el grupo de control está en la izquierda del metanálisis y a la derecha está el resultado bueno (es sobre reducir el tamaño de las porciones, menor es mejor). Mientras que en
este, el grupo control (placebo) está a la derecha, y los resultados a la izquierda son mejores. (Se trata de lágrimas artificiales sin receta para los síntomas del ojo seco.) Mientras tanto, en
éste, hace dos metanálisis; en uno en la página 58 "favorece" la inmunoterapia está a la derecha y páginas más adelante está a la izquierda. Y eso no es poco frecuente.
El orden de los estudios también varía. En el gráfico de arriba los estudios están en orden cronológico. Pueden estar en orden alfabético por el nombre del estudio lo que hace más fácil encontrar información extra de otra tabla o metanálisis en el artículo. También se pueden ordenar por sus resultados.
No siempre hay una figuar de resumen de la estimación en la parte inferior del gráfico de estudios. No pienses que el de abajo es "el" resultado. Puedes tener gráficos de diferentes metanálisis. Por ejemplo uno muestrando un resumen estimado de un grupo de metanálisis de preguntas relacionadas.
2. No pierdas de vista que datos no están en el metanálisis.
Probablemente esta es la trampa más común en la que se cae en los metanálisis: No tener en cuenta que a menudo buscan en un subconjunto de resultados. Si quien recopiló los datos originales no midió la misma cuestión y de la misma forma no tendrás datos que puedas combinar de esos estudios.
He aquí un ejemplo dramático de eso. Es de
la misma revisión sistemática sobre lágrimas artificiales de venta libre mencionada más arriba.
Hay 2 resultados, comparando la diferencia de medias en las escalas de síntomas a los 21, 28 días (gráfico de arriba) y 56 días.
Sólo hay 2 ensayos en el gráfico. Sin embargo se obtuvieron 43 ensayos sobre efectos de las lágrimas artificiales. Es muy frecuente que se enfoque y se informen el metanálisis de datos como el resumen de todos los estudios encontrados: "Un estudio con 43 ensayos sobre lágrimas artificiales encontró..." (
más ejemplos de esto en la vida real).
Entonces surge la pregunta sobre cómo se encuentran y seleccionan los estudios. Un mentanálisis no es necesariamente una revisión sistemática, con una búsqueda cuidadosa y completa de la evidencia sobre una pregunta. Siempre hay que tener 2 niveles en mente.
¿es probable encontrar estudios relevantes? y ¿Cuales de esos se representan en este resultado metanalitico en particular?
3. Recuerda comprobar si hay signos de que los estudios pueden ser demasiado diferentes de alguna forma.
Sólo porque puedar echar un montón de números en una marmita matematica no significa que formen parte del mismo cálculo. Por desgracia no siempre es tan obvio como en esta señal.
Un concepto importante en metanálisis es el estudio de la
heterogeneidad Una forma de decir "estos elementos nos son exactamente
los mismos". La heterogeneidad puede deberse a algo que conozacas, como
que un ensayo se realizó con niños y otro con adultos. Pero también hay
una heterogeneidad inexplicable y puede ser un problema. Las diferencias
en los resultados entre grupos y los conflictos entre estudios pueden
deberse al azar, pero pueden deberse también a la heterogeneidad. (
una explicación aqui).
Hay
pruebas estadísticas para la heterogeneidad en metanálisis. Una prueba
común es el I2, que proporciona un resultado en porcentaje. Aquí lo veis
al final de la primera línea:
Es del mentanálisis de la
página 58
mencionado más arriba. Combina clasificaciones de excema/dermatitits de
6 estudios para prevenirla con inmunoterapia alergénica. Fijaos sólo en
el porcentaja el final: 19%. Está en la parte baja de la escala: hasta
un 40% no representa un problema. Pero 75% o más lo puede ser mucho, y
debe hacerte ser cauto con el resultado. Es más importante cuando los
estudios son potentes, porque esta prueba estadística no es fiable con
muestras pequeñas.
(La prueba estadística en la línea del medio es la de
significación estadística).
4. Buscar si uno (o varios) resultados llevan la mayor parte del peso.
El
peso que un estudio obtiene está relacionado con lo que se llama la
precisión del estudio. La medida de la precisión depende de cuantos
participantes y eventos hubo en el estudio. No importa únicamente el
tamaño total del estudio.
Digamos que el evento en
el que estás interesado son ataques cardíacos y estás investigando un
método para reducirlos. Pero por alguna razón, ninguna persona en el
grupo experimental o de control tuvo un ataque cardíaco aúnque el
estudio era suficientemente grande para haber esperado varios. Este
estudio tendría menos capacidad para detectar cualquier diferencia que
tu método pudiera haber generado, por lo que debería tener menos peso
(en el metanálisis).
Es bastante frecuente que sólo uno o un par de estudios carguen con la mayoría del peso en el metanálisis.
Un estudio de Paul Glasziou y cols. encontró que el ensayo con más precisión significaba un promedio del 51% del total (del metanálisis).
Algunos
estudios son tan grandes que sobrepasan a todos los demás, no importa
cuantos haya. Les llamo los Hulk. Los Hulk no pueden ser puestos en
duda, sólo por su tamaño nadie repetirá otro estudio como ese. Esto es
genial si proporcionan una respuesta definitiva, pero no tanto si pueden
no ser representativos.
El tamaño del punto
estimado (resultado) y la longitud del intervalo de confianza son clave
para la asignación de peso a un estudio. El metanálisis debe incluir un
porcentaje para mostrar cuanto contribuye cada resultado individual al
promedio. Si no lo hace puedes saberlo mirando si hay uno o dos estudios
cuyo resultado está mucho más cerca del resultado resumen que los
otros. (Clave: La linea punteada vertical ayuda a esto, si la ponen).
Aquí una versión extrema y actual de esto. El ensayo de la iniciativa "salud de la mujer" (
WHI)
probó el tratamiento hormonoal prolongado en cáncer de mama. Es un
"Hulk" clásico: un estudio de investigación de 15 años con más de 160000
muejeres.
Este es un análisis 6.3.3 de Jane Marjoribanks y cols.
versión 2012. Hay muchos más metanálisis que este.
Los
140 eventos en más de 160000 mujeres del WHI machacan a los 4 eventos
en los dos ensayos previos más pequeños. El WHI se lleva el 95,4% del
peso del promedio del resumen.
Clave: Si te sientes confuso por la medida estadística y necesitas
ganar perspectiva sobre qué pasa, deberás mirar las cifras brutas de los
eventos. En este caso están a la izquierda: 68 de las 9084 mujeres del
grupo de tratamiento tuvieron cáncer de mama por 76 de las 8649 mujeres
del grupo control. Está tocando la línea de "no efecto", luego no es un
resultado estadísticamente significativo.
5. El tamaño no lo es todo, se cuidadoso con el "recuento de votos".
Una
de las principales ventajas de los metanálisis es que son la
alternativa más fiable que el "recuento de votos": "4 de 5 estudios
muestran..."
¿Qué sucede si esos "4" son estudios
pequeños y mal realizados en un grupo que no es relevante para tí (no es
tu foco) y el quinto es el único ensayo bien diseñado, potente y
relevante?
El ingenuo recuento de votos es un
riesgo, hay más estudios que "podrían llevar a conclusiones desastrosas
en varias circunstancias" escibieron Madden y Paul.
Aquí
presentamos 2 metanálisis de una revisión sistemática sobre revistas
biomédicas revisadas por pares. Hay también un resumen de la estimación
combinada de los dos análisis. Se ha eliminado el contexto pero se ha
dejado un elemento crítico extra a la derecha.
Pese a que la estimación del análisis en la parte inferiro favorece
la revisión por pares no cegada, no es una respuesta definitiva. Los
círculos de colores a la derecha muestran la evaluación del riesgo de
sesgo de acuerdo a 4 criterios y muestran el porqué.
Sólo
1 estudio (el de arriba) tiene una valoración positiva de los cuatro
criterios en un resultado, pero no es muy preciso. El segundo estudio
tiene más precisión en esa pregunta, pero tiene un par de aspectos
dudosos (marcados en amarillo).
Esto demuestar hasta
que punto es complejo y exige juicio esta labor. Un estudio más o menos.
La diferencia en juicio sobre la calidad del estudio. Enfocarse en
resultados o preguntas diferentes. Cualquiera de estos cambios pueden
modificar el resultado.
Una buena revisión
sistemática y metanálisis puede ser de gran ayuda para clasificar
estudios aparentemente en conflicto. Pero no debe sorprender que los
resultados de los mentanálisis varien. Necesitamos más gente capaz de
leerlos criticamente y ver
porqué los mentanálisis se convierten en resultados conflictivos por si sólos.