ScholarGate
Assistente

Ferramentas e Listas de Verificação de Avaliação Crítica

As ferramentas de avaliação crítica são instrumentos estruturados — listas de verificação, escalas e estruturas de questões sinalizadoras — que guiam um revisor através da validade, resultados e aplicabilidade de um estudo de forma explícita e repetível. Ao transformar o julgamento de especialistas num conjunto definido de questões, tornam a avaliação mais transparente, mais consistente entre os revisores e mais fácil de relatar.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Uma ferramenta de avaliação crítica é um conjunto predefinido de itens ou domínios, frequentemente formulados como perguntas, que um revisor aplica a um estudo individual para fazer um julgamento explícito, baseado em critérios, sobre o seu risco de viés, a interpretabilidade dos seus resultados e a sua aplicabilidade.

Scope

Este tópico abrange as famílias de instrumentos de avaliação e a sua lógica subjacente: listas de verificação genéricas (como a série CASP e os Guias para Utilizadores), ferramentas de risco de viés específicas do desenho (como RoB 2 para ensaios aleatorizados e QUADAS-2 para estudos de precisão diagnóstica), e a diferença entre listas de verificação simples, escalas de qualidade sumárias e ferramentas de julgamento baseadas em domínios. É de natureza educacional-referencial e não endossa nenhuma ferramenta única para decisões clínicas.

Core questions

  • Que tipos de instrumentos de avaliação existem e como as listas de verificação, escalas e ferramentas baseadas em domínios diferem?
  • Por que a maioria das ferramentas de avaliação é específica do desenho em vez de universal?
  • Qual é a diferença entre uma pontuação de qualidade sumária e um julgamento de risco de viés baseado em domínio?
  • Quanto a escolha da ferramenta afeta a avaliação do mesmo estudo?

Key concepts

  • Lista de verificação de avaliação genérica (CASP, Guias para Utilizadores)
  • Ferramenta de risco de viés específica do desenho (RoB 2, QUADAS-2)
  • Questões sinalizadoras
  • Julgamento baseado em domínio versus pontuação de qualidade sumária
  • Confiabilidade interavaliadores da avaliação
  • Reprodutibilidade dos julgamentos de avaliação

Mechanisms

As ferramentas de avaliação operacionalizam a lógica genérica de validade-resultados-aplicabilidade da medicina baseada em evidências em itens concretos, adaptados a um desenho particular. Listas de verificação genéricas como CASP e os Guias para Utilizadores da JAMA conduzem o leitor através das mesmas três questões para qualquer artigo (Guyatt 1993; Greenhalgh 1997). Ferramentas modernas baseadas em domínios vão mais longe, agrupando itens em domínios de viés — por exemplo, RoB 2 avalia ensaios aleatorizados em domínios como o processo de aleatorização, desvios das intervenções pretendidas, dados de resultados em falta, medição do resultado e seleção do resultado relatado, chegando a um julgamento por domínio e geral através de questões sinalizadoras (Sterne 2019). QUADAS-2 aplica a mesma arquitetura de domínio e questões sinalizadoras a estudos de precisão diagnóstica (Whiting 2011). A mudança de escalas numéricas sumárias para julgamento baseado em domínios reflete a evidência de que a ponderação arbitrária de itens da lista de verificação pode induzir em erro, e que o raciocínio transparente por domínio é mais defensável.

Clinical relevance

Estas ferramentas são utilizadas por clínicos, estudantes e revisores sistemáticos para tornar a avaliação de estudos individuais explícita e auditável. Descrevem como a confiabilidade da pesquisa é avaliada; caracterizam a evidência e não são, por si mesmas, uma base para diagnosticar ou tratar qualquer paciente individual.

Evidence & guidelines

Uma revisão sistemática de mais de uma centena de ferramentas de avaliação encontrou heterogeneidade substancial no conteúdo e nenhum padrão-ouro validado único para qualquer desenho de estudo, sublinhando que a escolha da ferramenta é, por si só, uma decisão metodológica (Katrak 2004). A prática contemporânea favorece instrumentos específicos do desenho e baseados em domínios — RoB 2 para ensaios aleatorizados e QUADAS-2 para estudos de precisão diagnóstica são amplamente endossados na Cochrane e outras orientações de revisão sistemática (Sterne 2019; Whiting 2011) — e desencoraja a conversão desses julgamentos em uma única pontuação de qualidade sumária.

History

Os primeiros auxílios à avaliação eram guias de leitura narrativa; os Guias para Utilizadores de McMaster da década de 1990 e as listas de verificação CASP que se seguiram forneceram aos clínicos conjuntos de questões explícitas e específicas para o tipo de estudo (Guyatt 1993; Greenhalgh 1997). À medida que a revisão sistemática amadureceu, o campo moveu-se de listas de verificação simples e escalas de qualidade numéricas para ferramentas de risco de viés baseadas em domínios, exemplificadas por QUADAS-2 para estudos diagnósticos (Whiting 2011) e o RoB 2 revisado para ensaios aleatorizados (Sterne 2019), refletindo a evidência acumulada de que as pontuações sumárias poderiam ser não confiáveis.

Debates

Pontuações de qualidade versus julgamento baseado em domínio
Colapsar muitos itens de avaliação em uma única pontuação de qualidade numérica depende de ponderação arbitrária e pode produzir classificações enganosas; o consenso metodológico atual favorece julgamentos transparentes de risco de viés por domínio em detrimento de escalas sumárias.
Falta de uma ferramenta padrão-ouro universal
A proliferação de ferramentas com conteúdo divergente e nenhum instrumento de referência validado para qualquer desenho significa que o mesmo estudo pode ser avaliado de forma diferente dependendo da ferramenta, levantando preocupações sobre a reprodutibilidade.

Key figures

  • Julian Higgins
  • Jonathan Sterne
  • Penny Whiting
  • Gordon Guyatt
  • Trisha Greenhalgh

Related topics

Seminal works

  • katrak-2004
  • sterne-2019-rob2
  • whiting-2011-quadas2

Frequently asked questions

Existe uma ferramenta de avaliação crítica melhor para cada estudo?
Não. Como diferentes desenhos são propensos a diferentes vieses, a maioria das avaliações é feita com ferramentas específicas do desenho, e uma revisão sistemática não encontrou um único instrumento padrão-ouro que funcione em todos os tipos de estudo.
Por que muitos campos se afastaram das pontuações de qualidade?
As pontuações de qualidade sumárias combinam itens com pesos arbitrários e podem classificar os estudos de forma enganosa. Ferramentas baseadas em domínios, como RoB 2 e QUADAS-2, fornecem um julgamento transparente para cada tipo de viés, o que é mais defensável e reprodutível.

Methods for this concept

Related concepts