Muéstrame los datos
Traducción de la editorial "show me the data" de Mike Rossner, Heather Van Epps, and Emma Hill en The Journal of Cell Biology, Vol. 179, No. 6, December 17, 2007 1091–1092 DOI: 10.1083
Enlace: http://www.jcb.org/cgi/doi/10.1083/jcb.200711140
La integridad de los datos y la transparencia de su adquisición son vitales para la ciencia. Los datos del factor de impacto que son compilados y vendidos por Thomson scientific (formalmente el Instituto para la información científica ISI) tienen una gran influencia en la comunidad científica, afectando a la decisión de donde publicar, a quien promocionar o contratar[1], el éxito en la concesión de becas[2] e incluso en los complementos salariales[3]. Los miembros de la comunidad aun parecen tener poca comprensión sobre como se determina el factor de impacto y, que sepamos, nadie ha auditado de modo independiente los datos que lo sustentan para validar su fiabilidad.
Cálculos y negociaciones
El factor de impacto de una revista en un año particular se determina como una medición del promedio del número de veces que un artículo publicado en los dos años precedentes fue citado durante el año en cuestión. Por ejemplo, el factor de impacto de 2006 es la media del número de veces que un artículo publicado en 2004 o 2005 fue citado en 2006. Hay, sin embargo, algunas peculiaridades sobre los cálculos del factor de impacto que han sido destacados por otros (por ejemplo [1],[4],[5]) que pensamos que vale la pena reiterar aquí:
1. El numerador del factor de impacto contiene cualquier citación detectable del contenido de una revista en los dos años previos, sin tener en cuenta el tipo de artículo[6]. Por ejemplo, el numerador del factor de impacto de 2006 contiene todas las citaciones de todo el contenido publicado en 2004 y 2005. El denominador del factor de impactos, sin embargo, contiene solamente aquellos artículos indicados por Thomson Scientific como artículos de investigación primaria ó artículos de revisión. Revistas "front matter", como Nature "Noticias y opiniones" (News and Views) no cuentan4. Así el cálculo del factor de impacto contiene valores de citación en el numerador que no se corresponden con los del denominador.
2. Los artículos son designados como primarios, revisiones o "front matter" a mano por los empleados de Thomson Scientific que examinan las revistas6 usando diversos criterios bibliográficos como las palabras clave y el número de referencias[7].
3. Algunas editoriales negocian con Thomson Scientific para cambiar esta designación a su favor5. Las especificaciones de estas negociaciones no están disponibles para el público, pero uno no se puede creer qué maravilla ha ocurrido cuando una revista experimenta un incremento súbito en el factor de impacto. Por ejemplo, Current Biology tenía un factor de impacto de 7.00 en 2002 y 11.91 en 2003. El denominador de alguna manera cayó desde 1032 en 2002 a 634 en 2003, incluso aunque el número total de artículos publicados en la revista se incrementó (ver la web del ISI http://portal.isiknowledge.com/ es necesario suscribirse).
4. Las citas a artículos retirados cuentan en el cálculo del factor de impacto[8] Como un egregio ejemplo los artículos sobre las células madre de Woo Suk Hwang en Science de 2004 a 2005, ambos retirados a posteriori (el 20 noviembre de 2007). No queremos citarlo aquí nuevamente para prevenir la creación de aún más citas a ese trabajo.
5. Debido a que el cálculo del factor de impacto es una media, puede estar gravemente atravesado por un artículo "exitoso". Por ejemplo el artículo inicial sobre el genoma humano en Nature[9] ha sido citado un total de 5904 veces (hasta el 20 de noviembre de 2007). En un auto análisis de su factor de impacto de 2005, Nature se percató de que el 89% de sus citas provenían sólo del 25% de los artículos publicados4.
Cuando le preguntamos a Thomson Scientific si habían pensado en proporcionar un cálculo de mediana a mayores de la media que ya publican, respondieron, "es una sugerencia interesante… La mediana… suele ser más baja que la media. Existen otras medidas estadísticas para describir la naturaleza de la distribución de frecuencias de la citación, pero la mediana no es probablemente la opción correcta". Quizás, pero proporcionar a la comunidad otra medida que la media no puede hacer daño, ya que esta, según lo admite Thomson Scientific, refleja débilmente el promedio de citas de muchos artículos.
6. Hay maneras de jugar el juego del factor de impacto bien conocidos por todos los editores de publicaciones, pero que sólo alguno juegan. Por ejemplo, los artículos de revisión generan normalmente muchas citas, como las del genoma u otros artículos de muchos datos (véanse los ejemplos superiores). Cuando se le preguntó si se ha planteado proporcionar un cálculo sólo de artículos de investigación primaria, Thomson Scientific no respondió.
Integridad
Como editores de revistas la integridad de los datos significa que los datos presentados al público reflejan fielmente los que fue observado. Para ayudarnos a asegurar esto, The Rockefeller
University Press instituyó una norma de examinado de imágenes de datos en los manuscritos aceptados como prueba de manipulación. Hacemos esta imagen de datos si sólo publicamos un tipo de datos, pero es un tipo del que podemos examinar su integridad fácilmente. Si se plantea una pregunta sobre los datos de una figura, les pedimos a los autores que nos envíen los datos originales para su examen por los editores. Consideramos que es nuestra obligación proteger los registros publicados de esta manera.
Thomson Scientific hace sus datos de una revista en concreto disponibles para su compra. Con el objeto de diseccionar los datos para determinar qué temas han sido los más citados y cuales no, decidimos comprar los datos de nuestras tres publicaciones (The Journal of Experimental Medicine, The Journal of Cell Biology, y The Journal of General Physiology) y de alguno de nuestros competidores directos. Nuestra intención no era cuestionar la integridad de los datos.
Cuando examinamos los datos en la base de datos de Thomson Scientific dos cosas quedaron rápidamente en evidencia: Primero, había numerosas incorrecciones en la designación del tipo de artículos. Muchos artículos que consideramos "front matter" fueron incluidos en el denominador. Esto ocurrió para todas las revistas que examinamos. Segundo los números no coincidían. El número total de citas para cada revista fue sustancialmente inferior que el número publicado en la revista de informes de citación JRC de Thomson Scientific (web http://portal.isiknowledge.com requiere suscripción). La diferencia en el número de citaciones fue alta, hasta un 19% para una revista dada y el ranking de factor de impacto fue afectado cuando el cálculo se realizó usando los datos adquiridos (datos que no mostramos debido a restricciones en el acuerdo de licencia con Thomson Scientific)
¿Minería o tu base de datos?
Cuando preguntamos sobre la discrepancia, Thomson Scientific explicó que ellos tienen dos bases de datos separadas –una para su "grupo de investigación" y usa que se usa para el factor de impacto publicado (la del JCR). Hemos debido vender la base de datos del "grupo de investigación" que tiene menos citas porque los datos se extraen da registros erroneos. El personal del JCR marca citas a los títulos de las revistas mientras que el grupo del servicio de investigación marca citas a artículos individuales", explica un representante de Thomson Scientific. "Porque algunas referencias citadas tienen un error en el volumen o la página, nombre del autor principal y otros datos estos son pasados por alto por el grupo del servicio de investigación".
Cuando preguntamos por la base de datos utilizada para calcular los factores de impacto publicados (por ejemplo incluyendo los registros erróneos), Thomson Scientific nos envió una segunda base de datos. Pero estos datos seguían sin coincidir con los datos de factor de impacto publicados. Esta base de datos parecía haber sido montada de modo "ad hoc" para crear un facsímile de los datos publicados que pudiera apaciguarnos. No lo hizo.
Datos opacos
Estaba claro que Thomson Scientific no quería o (por razones inexplicables) no podía vendernos los datos usados para calcular los factores de impacto publicados. Si un autor no puede producir datos originales para verificar un gráfico en uno de nuestros artículos, revocamos la aceptación del mismo. Esperamos que este relato convenza a algunos científicos y organizaciones provisoras de fondos a retirar su aceptación del factor de impacto como una representación precisa de la calidad –impacto- de un artículo publicado en una revista concreta.
Justamente como científicos no podemos aceptar los hallazgos en un artículo científico sin ver los datos primarios, como no deben confiar en el factor de impacto de Thomson Scientific, basado en datos ocultos. Como los datos de publicación y citación están disponibles para el público mediante servicios como PubMed Central y Google Scholar®, esperamos que la gente desarrolle sus propias métricas para evaluar la calidad científica mejor que depender de un mal definido y manifiestamente acientífico número.
Correspondencia a Mike Rossner:
[1] Monastersky, R. 2005. The number that's devouring science. The impact factor, once a simple way to rank scientifi c journals, has become an unyielding yardstick for hiring, tenure, and grants. Chron. High. Educ. 52:A12.
[2] Wells, W.A. 2007. The returning tide: how China, the world's most populous country, is building a competitive research base. J. Cell Biol. 176:376–401 doi:10.1083/jcb.200701150.
[3] Editorial. 2006. Cash-per-publication is an idea best avoided. Nature. 441:786 doi:10.1038/441786a.
[4] Editorial. 2005. Not-so-deep impact.Research assessment rests too heavily on the infl ated status of the impact factor. Nature. 435:1003–1004 doi:10.1038/4351003a.
[5] The PLoS Medicine Editors. 2006. The impact factor game. It is time to fi nd a better way to assess the scientifi c literature. PLoS Med. 3:e291 doi:10.1371/journal.pmed.0030291.
[6] Garfi eld, E. 1999. Journal impact factor: a brief review. Can. Med. Assoc. J. 161:979–980.
[7] The Thomson Scientifi c Impact Factor. 1994. http://scientific.thomson.com/free/essays/journalcitationreports/impactfactor/ (accessed November 29, 2007).
[8] Liu, S.V. 2007. Hwang's retracted publication still contributes to Science's impact factor. Sci. Ethics. 2:44–45.
[9] Lander, E.S., L.M. Linton, B. Birren, C. Nusbaum, M.C. Zody, J. Baldwin, K. Devon, K. Dewar, M. Doyle, W. FitzHugh, et al. 2001. Initial sequencing and analysis of the human genome. Nature. 409:860–921.