Ferramentas e Listas de Verificação de Avaliação Crítica
As ferramentas de avaliação crítica são instrumentos estruturados — listas de verificação, escalas e estruturas de questões sinalizadoras — que guiam um revisor através da validade, resultados e aplicabilidade de um estudo de forma explícita e repetível. Ao transformar o julgamento de especialistas num conjunto definido de questões, tornam a avaliação mais transparente, mais consistente entre os revisores e mais fácil de relatar.
Definition
Uma ferramenta de avaliação crítica é um conjunto predefinido de itens ou domínios, frequentemente formulados como perguntas, que um revisor aplica a um estudo individual para fazer um julgamento explícito, baseado em critérios, sobre o seu risco de viés, a interpretabilidade dos seus resultados e a sua aplicabilidade.
Scope
Este tópico abrange as famílias de instrumentos de avaliação e a sua lógica subjacente: listas de verificação genéricas (como a série CASP e os Guias para Utilizadores), ferramentas de risco de viés específicas do desenho (como RoB 2 para ensaios aleatorizados e QUADAS-2 para estudos de precisão diagnóstica), e a diferença entre listas de verificação simples, escalas de qualidade sumárias e ferramentas de julgamento baseadas em domínios. É de natureza educacional-referencial e não endossa nenhuma ferramenta única para decisões clínicas.
Core questions
- Que tipos de instrumentos de avaliação existem e como as listas de verificação, escalas e ferramentas baseadas em domínios diferem?
- Por que a maioria das ferramentas de avaliação é específica do desenho em vez de universal?
- Qual é a diferença entre uma pontuação de qualidade sumária e um julgamento de risco de viés baseado em domínio?
- Quanto a escolha da ferramenta afeta a avaliação do mesmo estudo?
Key concepts
- Lista de verificação de avaliação genérica (CASP, Guias para Utilizadores)
- Ferramenta de risco de viés específica do desenho (RoB 2, QUADAS-2)
- Questões sinalizadoras
- Julgamento baseado em domínio versus pontuação de qualidade sumária
- Confiabilidade interavaliadores da avaliação
- Reprodutibilidade dos julgamentos de avaliação
Mechanisms
As ferramentas de avaliação operacionalizam a lógica genérica de validade-resultados-aplicabilidade da medicina baseada em evidências em itens concretos, adaptados a um desenho particular. Listas de verificação genéricas como CASP e os Guias para Utilizadores da JAMA conduzem o leitor através das mesmas três questões para qualquer artigo (Guyatt 1993; Greenhalgh 1997). Ferramentas modernas baseadas em domínios vão mais longe, agrupando itens em domínios de viés — por exemplo, RoB 2 avalia ensaios aleatorizados em domínios como o processo de aleatorização, desvios das intervenções pretendidas, dados de resultados em falta, medição do resultado e seleção do resultado relatado, chegando a um julgamento por domínio e geral através de questões sinalizadoras (Sterne 2019). QUADAS-2 aplica a mesma arquitetura de domínio e questões sinalizadoras a estudos de precisão diagnóstica (Whiting 2011). A mudança de escalas numéricas sumárias para julgamento baseado em domínios reflete a evidência de que a ponderação arbitrária de itens da lista de verificação pode induzir em erro, e que o raciocínio transparente por domínio é mais defensável.
Clinical relevance
Estas ferramentas são utilizadas por clínicos, estudantes e revisores sistemáticos para tornar a avaliação de estudos individuais explícita e auditável. Descrevem como a confiabilidade da pesquisa é avaliada; caracterizam a evidência e não são, por si mesmas, uma base para diagnosticar ou tratar qualquer paciente individual.
Evidence & guidelines
Uma revisão sistemática de mais de uma centena de ferramentas de avaliação encontrou heterogeneidade substancial no conteúdo e nenhum padrão-ouro validado único para qualquer desenho de estudo, sublinhando que a escolha da ferramenta é, por si só, uma decisão metodológica (Katrak 2004). A prática contemporânea favorece instrumentos específicos do desenho e baseados em domínios — RoB 2 para ensaios aleatorizados e QUADAS-2 para estudos de precisão diagnóstica são amplamente endossados na Cochrane e outras orientações de revisão sistemática (Sterne 2019; Whiting 2011) — e desencoraja a conversão desses julgamentos em uma única pontuação de qualidade sumária.
History
Os primeiros auxílios à avaliação eram guias de leitura narrativa; os Guias para Utilizadores de McMaster da década de 1990 e as listas de verificação CASP que se seguiram forneceram aos clínicos conjuntos de questões explícitas e específicas para o tipo de estudo (Guyatt 1993; Greenhalgh 1997). À medida que a revisão sistemática amadureceu, o campo moveu-se de listas de verificação simples e escalas de qualidade numéricas para ferramentas de risco de viés baseadas em domínios, exemplificadas por QUADAS-2 para estudos diagnósticos (Whiting 2011) e o RoB 2 revisado para ensaios aleatorizados (Sterne 2019), refletindo a evidência acumulada de que as pontuações sumárias poderiam ser não confiáveis.
Debates
- Pontuações de qualidade versus julgamento baseado em domínio
- Colapsar muitos itens de avaliação em uma única pontuação de qualidade numérica depende de ponderação arbitrária e pode produzir classificações enganosas; o consenso metodológico atual favorece julgamentos transparentes de risco de viés por domínio em detrimento de escalas sumárias.
- Falta de uma ferramenta padrão-ouro universal
- A proliferação de ferramentas com conteúdo divergente e nenhum instrumento de referência validado para qualquer desenho significa que o mesmo estudo pode ser avaliado de forma diferente dependendo da ferramenta, levantando preocupações sobre a reprodutibilidade.
Key figures
- Julian Higgins
- Jonathan Sterne
- Penny Whiting
- Gordon Guyatt
- Trisha Greenhalgh
Related topics
Seminal works
- katrak-2004
- sterne-2019-rob2
- whiting-2011-quadas2
Frequently asked questions
- Existe uma ferramenta de avaliação crítica melhor para cada estudo?
- Não. Como diferentes desenhos são propensos a diferentes vieses, a maioria das avaliações é feita com ferramentas específicas do desenho, e uma revisão sistemática não encontrou um único instrumento padrão-ouro que funcione em todos os tipos de estudo.
- Por que muitos campos se afastaram das pontuações de qualidade?
- As pontuações de qualidade sumárias combinam itens com pesos arbitrários e podem classificar os estudos de forma enganosa. Ferramentas baseadas em domínios, como RoB 2 e QUADAS-2, fornecem um julgamento transparente para cada tipo de viés, o que é mais defensável e reprodutível.