¿Existe una herramienta de evaluación crítica que sea la mejor para cada estudio?

No. Debido a que diferentes diseños son propensos a diferentes sesgos, la mayoría de las evaluaciones se realizan con herramientas específicas para el diseño, y una revisión sistemática no encontró ningún instrumento estándar de oro único que funcione para todos los tipos de estudio.

¿Por qué muchos campos se han alejado de las puntuaciones de calidad?

Las puntuaciones de calidad resumidas combinan ítems con ponderaciones arbitrarias y pueden clasificar los estudios de manera engañosa. Las herramientas basadas en dominios, como RoB 2 y QUADAS-2, en cambio, proporcionan un juicio transparente para cada tipo de sesgo, lo que es más defendible y reproducible.

Herramientas y listas de verificación para la evaluación crítica

Las herramientas de evaluación crítica son instrumentos estructurados —listas de verificación, escalas y marcos de preguntas orientadoras— que guían a un revisor a través de la validez, los resultados y la aplicabilidad de un estudio de manera explícita y reproducible. Al convertir el juicio experto en un conjunto definido de preguntas, hacen que la evaluación sea más transparente, más consistente entre revisores y más fácil de informar.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Una herramienta de evaluación crítica es un conjunto predefinido de ítems o dominios, a menudo formulado como preguntas, que un revisor aplica a un estudio individual para emitir un juicio explícito y basado en criterios sobre su riesgo de sesgo, la interpretabilidad de sus resultados y su aplicabilidad.

Scope

Este tema abarca las familias de instrumentos de evaluación y la justificación detrás de ellos: listas de verificación genéricas (como la serie CASP y las Guías para Usuarios), herramientas de riesgo de sesgo específicas para el diseño (como RoB 2 para ensayos aleatorizados y QUADAS-2 para estudios de precisión diagnóstica), y la diferencia entre listas de verificación simples, escalas de calidad resumidas y herramientas de juicio basadas en dominios. Tiene un propósito educativo y de referencia y no respalda ninguna herramienta única para decisiones clínicas.

Core questions

¿Qué tipos de instrumentos de evaluación existen y cómo difieren las listas de verificación, las escalas y las herramientas basadas en dominios?
¿Por qué la mayoría de las herramientas de evaluación son específicas para el diseño en lugar de universales?
¿Cuál es la diferencia entre una puntuación de calidad resumida y un juicio de riesgo de sesgo basado en dominios?
¿Cuánto afecta la elección de la herramienta a la evaluación del mismo estudio?

Key concepts

Lista de verificación de evaluación genérica (CASP, Guías para Usuarios)
Herramienta de riesgo de sesgo específica para el diseño (RoB 2, QUADAS-2)
Preguntas orientadoras
Juicio basado en dominios versus puntuación de calidad resumida
Fiabilidad inter-evaluador de la evaluación
Reproducibilidad de los juicios de evaluación

Mechanisms

Las herramientas de evaluación operacionalizan la lógica genérica de validez-resultados-aplicabilidad de la medicina basada en la evidencia en ítems concretos adaptados a un diseño particular. Las listas de verificación genéricas como CASP y las Guías para Usuarios de JAMA guían al lector a través de las mismas tres preguntas para cualquier artículo (Guyatt 1993; Greenhalgh 1997). Las herramientas modernas basadas en dominios van más allá al agrupar los ítems en dominios de sesgo —por ejemplo, RoB 2 evalúa ensayos aleatorizados en dominios como el proceso de aleatorización, las desviaciones de las intervenciones previstas, los datos de resultados faltantes, la medición del resultado y la selección del resultado informado, alcanzando un juicio por dominio y un juicio general a través de preguntas orientadoras (Sterne 2019). QUADAS-2 aplica la misma arquitectura de dominio y preguntas orientadoras a los estudios de precisión diagnóstica (Whiting 2011). El cambio de escalas numéricas resumidas a juicios basados en dominios refleja la evidencia de que la ponderación arbitraria de los ítems de las listas de verificación puede inducir a error, y que el razonamiento transparente por dominio es más defendible.

Clinical relevance

Estas herramientas son utilizadas por clínicos, estudiantes y revisores sistemáticos para hacer que la evaluación de estudios individuales sea explícita y auditable. Describen cómo se evalúa la fiabilidad de la investigación; caracterizan la evidencia y no son en sí mismas una base para diagnosticar o tratar a ningún paciente individual.

Evidence & guidelines

Una revisión sistemática de más de cien herramientas de evaluación encontró una heterogeneidad sustancial en el contenido y ningún estándar de oro validado único para ningún diseño de estudio, lo que subraya que la elección de la herramienta es en sí misma una decisión metodológica (Katrak 2004). La práctica contemporánea favorece los instrumentos basados en dominios y específicos para el diseño —RoB 2 para ensayos aleatorizados y QUADAS-2 para estudios de precisión diagnóstica son ampliamente respaldados en Cochrane y otras guías de revisión sistemática (Sterne 2019; Whiting 2011)— y desaconseja convertir estos juicios en una única puntuación de calidad resumida.

History

Las primeras ayudas para la evaluación eran guías de lectura narrativas; las Guías para Usuarios de McMaster de la década de 1990 y las listas de verificación CASP que le siguieron proporcionaron a los clínicos conjuntos de preguntas explícitas y específicas para cada tipo de estudio (Guyatt 1993; Greenhalgh 1997). A medida que la revisión sistemática maduró, el campo se movió de listas de verificación simples y escalas de calidad numéricas hacia herramientas de riesgo de sesgo basadas en dominios, ejemplificado por QUADAS-2 para estudios diagnósticos (Whiting 2011) y el RoB 2 revisado para ensayos aleatorizados (Sterne 2019), lo que refleja la evidencia acumulada de que las puntuaciones resumidas podrían no ser fiables.

Debates

Puntuaciones de calidad versus juicio basado en dominios: La reducción de muchos ítems de evaluación a una única puntuación de calidad numérica depende de una ponderación arbitraria y puede producir clasificaciones engañosas; el consenso metodológico actual favorece los juicios de riesgo de sesgo transparentes por dominio sobre las escalas resumidas.
Falta de una herramienta estándar de oro universal: La proliferación de herramientas con contenido divergente y la ausencia de un instrumento de referencia validado para cualquier diseño significa que el mismo estudio puede ser evaluado de manera diferente según la herramienta, lo que plantea preocupaciones sobre la reproducibilidad.

Key figures

Julian Higgins
Jonathan Sterne
Penny Whiting
Gordon Guyatt
Trisha Greenhalgh

Seminal works

katrak-2004
sterne-2019-rob2
whiting-2011-quadas2

Frequently asked questions

¿Existe una herramienta de evaluación crítica que sea la mejor para cada estudio?: No. Debido a que diferentes diseños son propensos a diferentes sesgos, la mayoría de las evaluaciones se realizan con herramientas específicas para el diseño, y una revisión sistemática no encontró ningún instrumento estándar de oro único que funcione para todos los tipos de estudio.
¿Por qué muchos campos se han alejado de las puntuaciones de calidad?: Las puntuaciones de calidad resumidas combinan ítems con ponderaciones arbitrarias y pueden clasificar los estudios de manera engañosa. Las herramientas basadas en dominios, como RoB 2 y QUADAS-2, en cambio, proporcionan un juicio transparente para cada tipo de sesgo, lo que es más defendible y reproducible.