Existe uma ferramenta de avaliação crítica melhor para cada estudo?

Não. Como diferentes desenhos são propensos a diferentes vieses, a maioria das avaliações é feita com ferramentas específicas do desenho, e uma revisão sistemática não encontrou um único instrumento padrão-ouro que funcione em todos os tipos de estudo.

Por que muitos campos se afastaram das pontuações de qualidade?

As pontuações de qualidade sumárias combinam itens com pesos arbitrários e podem classificar os estudos de forma enganosa. Ferramentas baseadas em domínios, como RoB 2 e QUADAS-2, fornecem um julgamento transparente para cada tipo de viés, o que é mais defensável e reprodutível.

Ferramentas e Listas de Verificação de Avaliação Crítica

As ferramentas de avaliação crítica são instrumentos estruturados — listas de verificação, escalas e estruturas de questões sinalizadoras — que guiam um revisor através da validade, resultados e aplicabilidade de um estudo de forma explícita e repetível. Ao transformar o julgamento de especialistas num conjunto definido de questões, tornam a avaliação mais transparente, mais consistente entre os revisores e mais fácil de relatar.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Uma ferramenta de avaliação crítica é um conjunto predefinido de itens ou domínios, frequentemente formulados como perguntas, que um revisor aplica a um estudo individual para fazer um julgamento explícito, baseado em critérios, sobre o seu risco de viés, a interpretabilidade dos seus resultados e a sua aplicabilidade.

Scope

Este tópico abrange as famílias de instrumentos de avaliação e a sua lógica subjacente: listas de verificação genéricas (como a série CASP e os Guias para Utilizadores), ferramentas de risco de viés específicas do desenho (como RoB 2 para ensaios aleatorizados e QUADAS-2 para estudos de precisão diagnóstica), e a diferença entre listas de verificação simples, escalas de qualidade sumárias e ferramentas de julgamento baseadas em domínios. É de natureza educacional-referencial e não endossa nenhuma ferramenta única para decisões clínicas.

Core questions

Que tipos de instrumentos de avaliação existem e como as listas de verificação, escalas e ferramentas baseadas em domínios diferem?
Por que a maioria das ferramentas de avaliação é específica do desenho em vez de universal?
Qual é a diferença entre uma pontuação de qualidade sumária e um julgamento de risco de viés baseado em domínio?
Quanto a escolha da ferramenta afeta a avaliação do mesmo estudo?

Key concepts

Lista de verificação de avaliação genérica (CASP, Guias para Utilizadores)
Ferramenta de risco de viés específica do desenho (RoB 2, QUADAS-2)
Questões sinalizadoras
Julgamento baseado em domínio versus pontuação de qualidade sumária
Confiabilidade interavaliadores da avaliação
Reprodutibilidade dos julgamentos de avaliação

Mechanisms

As ferramentas de avaliação operacionalizam a lógica genérica de validade-resultados-aplicabilidade da medicina baseada em evidências em itens concretos, adaptados a um desenho particular. Listas de verificação genéricas como CASP e os Guias para Utilizadores da JAMA conduzem o leitor através das mesmas três questões para qualquer artigo (Guyatt 1993; Greenhalgh 1997). Ferramentas modernas baseadas em domínios vão mais longe, agrupando itens em domínios de viés — por exemplo, RoB 2 avalia ensaios aleatorizados em domínios como o processo de aleatorização, desvios das intervenções pretendidas, dados de resultados em falta, medição do resultado e seleção do resultado relatado, chegando a um julgamento por domínio e geral através de questões sinalizadoras (Sterne 2019). QUADAS-2 aplica a mesma arquitetura de domínio e questões sinalizadoras a estudos de precisão diagnóstica (Whiting 2011). A mudança de escalas numéricas sumárias para julgamento baseado em domínios reflete a evidência de que a ponderação arbitrária de itens da lista de verificação pode induzir em erro, e que o raciocínio transparente por domínio é mais defensável.

Clinical relevance

Estas ferramentas são utilizadas por clínicos, estudantes e revisores sistemáticos para tornar a avaliação de estudos individuais explícita e auditável. Descrevem como a confiabilidade da pesquisa é avaliada; caracterizam a evidência e não são, por si mesmas, uma base para diagnosticar ou tratar qualquer paciente individual.

Evidence & guidelines

Uma revisão sistemática de mais de uma centena de ferramentas de avaliação encontrou heterogeneidade substancial no conteúdo e nenhum padrão-ouro validado único para qualquer desenho de estudo, sublinhando que a escolha da ferramenta é, por si só, uma decisão metodológica (Katrak 2004). A prática contemporânea favorece instrumentos específicos do desenho e baseados em domínios — RoB 2 para ensaios aleatorizados e QUADAS-2 para estudos de precisão diagnóstica são amplamente endossados na Cochrane e outras orientações de revisão sistemática (Sterne 2019; Whiting 2011) — e desencoraja a conversão desses julgamentos em uma única pontuação de qualidade sumária.

History

Os primeiros auxílios à avaliação eram guias de leitura narrativa; os Guias para Utilizadores de McMaster da década de 1990 e as listas de verificação CASP que se seguiram forneceram aos clínicos conjuntos de questões explícitas e específicas para o tipo de estudo (Guyatt 1993; Greenhalgh 1997). À medida que a revisão sistemática amadureceu, o campo moveu-se de listas de verificação simples e escalas de qualidade numéricas para ferramentas de risco de viés baseadas em domínios, exemplificadas por QUADAS-2 para estudos diagnósticos (Whiting 2011) e o RoB 2 revisado para ensaios aleatorizados (Sterne 2019), refletindo a evidência acumulada de que as pontuações sumárias poderiam ser não confiáveis.

Debates

Pontuações de qualidade versus julgamento baseado em domínio: Colapsar muitos itens de avaliação em uma única pontuação de qualidade numérica depende de ponderação arbitrária e pode produzir classificações enganosas; o consenso metodológico atual favorece julgamentos transparentes de risco de viés por domínio em detrimento de escalas sumárias.
Falta de uma ferramenta padrão-ouro universal: A proliferação de ferramentas com conteúdo divergente e nenhum instrumento de referência validado para qualquer desenho significa que o mesmo estudo pode ser avaliado de forma diferente dependendo da ferramenta, levantando preocupações sobre a reprodutibilidade.

Key figures

Julian Higgins
Jonathan Sterne
Penny Whiting
Gordon Guyatt
Trisha Greenhalgh

Seminal works

katrak-2004
sterne-2019-rob2
whiting-2011-quadas2

Frequently asked questions

Existe uma ferramenta de avaliação crítica melhor para cada estudo?: Não. Como diferentes desenhos são propensos a diferentes vieses, a maioria das avaliações é feita com ferramentas específicas do desenho, e uma revisão sistemática não encontrou um único instrumento padrão-ouro que funcione em todos os tipos de estudo.
Por que muitos campos se afastaram das pontuações de qualidade?: As pontuações de qualidade sumárias combinam itens com pesos arbitrários e podem classificar os estudos de forma enganosa. Ferramentas baseadas em domínios, como RoB 2 e QUADAS-2, fornecem um julgamento transparente para cada tipo de viés, o que é mais defensável e reprodutível.