Avaliação de Testes de Rastreamento e Diagnóstico
A avaliação de testes de rastreamento e diagnóstico é o ramo da epidemiologia que quantifica o quão bem um teste distingue pessoas que têm uma condição-alvo daquelas que não a têm. Ela fornece as medidas — sensibilidade, especificidade, valores preditivos, razões de verossimilhança e a curva de característica de operação do receptor — usadas para julgar um teste em relação a um padrão de referência e para antecipar como ele se comportará quando aplicado a uma população.
Definition
A avaliação de testes de rastreamento e diagnóstico é a medição sistemática da capacidade de um teste de classificar sujeitos pelo verdadeiro status da doença, expressa por meio de índices de acurácia calculados a partir de uma tabulação cruzada dos resultados do teste em relação a um padrão de referência.
Scope
Esta área orienta o leitor sobre as métricas centrais de acurácia derivadas da comparação de um teste com um padrão de referência ("ouro"), a distinção entre propriedades intrínsecas do teste e o desempenho preditivo dependente da população, o papel da prevalência da doença e os padrões de relato para estudos de acurácia diagnóstica. É uma visão metodológica geral, não uma orientação clínica, e não recomenda nenhum teste ou limiar específico para um indivíduo.
Sub-topics
Core questions
- Com que frequência um teste identifica corretamente as pessoas que têm a condição e as pessoas que não a têm?
- Dado um resultado positivo ou negativo, qual a probabilidade de a condição estar realmente presente ou ausente?
- Como a prevalência da condição em uma população altera o valor prático de um teste?
- Como a troca entre detectar casos verdadeiros e evitar falsos alarmes deve ser escolhida e relatada?
Key concepts
- Padrão de referência (ouro)
- Sensibilidade e especificidade
- Valor preditivo positivo e negativo
- Razões de verossimilhança
- Prevalência da doença e probabilidade pré-teste
- Curva de característica de operação do receptor (ROC)
- Limiar e ponto de corte diagnóstico
- Viés de espectro e de verificação
Mechanisms
A avaliação do teste começa classificando cruzadamente o resultado do teste de cada sujeito (positivo ou negativo) em relação ao verdadeiro status da doença estabelecido por um padrão de referência, produzindo as quatro células de uma tabela 2x2 (verdadeiros positivos, falsos positivos, falsos negativos, verdadeiros negativos). A sensibilidade e a especificidade são lidas nas colunas do status conhecido da doença e são, em princípio, propriedades do teste que não dependem da frequência da condição. Os valores preditivos são lidos nas linhas do resultado do teste e, portanto, dependem da prevalência, porque o mesmo teste aplicado onde a doença é rara produz mais falsos positivos em relação aos verdadeiros positivos. As razões de verossimilhança combinam sensibilidade e especificidade em fatores que atualizam as chances pré-teste para as chances pós-teste. Quando um teste produz uma medição contínua ou ordinal, mover o limiar de decisão troca sensibilidade por especificidade; plotar essa troca em todos os limiares produz a curva ROC, cuja área resume a discriminação independentemente de qualquer ponto de corte único.
Clinical relevance
Essas medidas são a linguagem comum para avaliar se um teste de rastreamento ou diagnóstico é adequado para o propósito e para comparar testes concorrentes em igualdade de condições. Compreendê-las é fundamental para a avaliação crítica da literatura diagnóstica; a área explica como a evidência diagnóstica é gerada e interpretada e não é uma base para decisões individuais de diagnóstico ou tratamento.
Epidemiology
As métricas de acurácia sustentam decisões sobre programas de rastreamento populacional, onde as consequências de falsos positivos e falsos negativos em escala, juntamente com a prevalência da doença, determinam se o rastreamento faz mais bem do que mal. Padrões de relato como o STARD foram desenvolvidos para melhorar a completude e a transparência dos estudos de acurácia diagnóstica, e os vieses de espectro e verificação são ameaças reconhecidas à validade da acurácia relatada.
Evidence & guidelines
A declaração STARD fornece uma lista de verificação para o relato transparente de estudos de acurácia diagnóstica e é amplamente endossada por periódicos biomédicos.
History
A avaliação formal de testes diagnósticos surgiu do trabalho de meados do século XX sobre detecção de sinais e tomada de decisão clínica e foi aprimorada pelo reconhecimento na década de 1970 de que um desenho de estudo enviesado poderia inflar a acurácia aparente. As medidas de acurácia acessíveis foram popularizadas na literatura médica ao longo da década de 1990, e os padrões de relato foram consolidados na declaração STARD nos anos 2000 e atualizados em 2015.
Debates
- Por que um teste que parece altamente preciso ainda pode enganar no rastreamento?
- Como os valores preditivos dependem da prevalência, um teste com alta sensibilidade e especificidade ainda pode gerar muitos falsos positivos quando aplicado a uma população de rastreamento de baixa prevalência, uma fonte recorrente de má interpretação.
- Quanto os vieses de desenho do estudo distorcem a acurácia relatada?
- O viés de espectro e o viés de verificação podem inflar substancialmente a sensibilidade e a especificidade medidas, portanto, a acurácia relatada deve ser interpretada à luz de como os casos e controles foram selecionados e como o padrão de referência foi aplicado.
Key figures
- Douglas Altman
- Jonathan Deeks
- David Grimes
- Kenneth Schulz
- Patrick Bossuyt
Related topics
Seminal works
- ransohoff-feinstein-1978
- altman-bland-1994a
- altman-bland-1994b
- bossuyt-2015
Frequently asked questions
- Qual a diferença entre um teste de rastreamento e um teste diagnóstico?
- Um teste de rastreamento é aplicado a pessoas aparentemente saudáveis para identificar aquelas com maior probabilidade de ter uma condição, geralmente favorecendo a sensibilidade, enquanto um teste diagnóstico é usado para confirmar ou excluir a doença em pessoas já suspeitas; ambos são avaliados com as mesmas medidas de acurácia em relação a um padrão de referência.
- Por que a prevalência é importante para a utilidade de um teste?
- A sensibilidade e a especificidade descrevem o próprio teste, mas a chance de um resultado positivo estar correto (valor preditivo positivo) diminui à medida que a condição se torna mais rara, de modo que o mesmo teste pode ser informativo em uma clínica de alta prevalência e enganoso em um ambiente de rastreamento de baixa prevalência.