Was ist der Unterschied zwischen einem Screening-Test und einem Diagnosetest?

Ein Screening-Test wird bei scheinbar gesunden Personen angewendet, um diejenigen zu identifizieren, die mit größerer Wahrscheinlichkeit eine Erkrankung haben, wobei in der Regel die Sensitivität bevorzugt wird, während ein Diagnosetest verwendet wird, um eine Krankheit bei Personen zu bestätigen oder auszuschließen, bei denen sie bereits vermutet wird; beide werden mit denselben Genauigkeitsmaßen anhand eines Referenzstandards evaluiert.

Warum ist die Prävalenz für die Nützlichkeit eines Tests wichtig?

Sensitivität und Spezifität beschreiben den Test selbst, aber die Wahrscheinlichkeit, dass ein positives Ergebnis korrekt ist (positiver prädiktiver Wert), sinkt, wenn die Erkrankung seltener wird, sodass derselbe Test in einer Klinik mit hoher Prävalenz informativ und in einem Screening-Setting mit geringer Prävalenz irreführend sein kann.

Evaluation von Screening- und Diagnosetests

Die Evaluation von Screening- und Diagnosetests ist der Zweig der Epidemiologie, der quantifiziert, wie gut ein Test Personen mit einer Zielerkrankung von Personen ohne diese Erkrankung unterscheidet. Sie liefert die Maße – Sensitivität, Spezifität, prädiktive Werte, Likelihood-Ratios und die Receiver Operating Characteristic (ROC)-Kurve –, die verwendet werden, um einen Test anhand eines Referenzstandards zu beurteilen und sein Verhalten bei Anwendung auf eine Population vorherzusagen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Die Evaluation von Screening- und Diagnosetests ist die systematische Messung der Fähigkeit eines Tests, Probanden nach ihrem wahren Krankheitsstatus zu klassifizieren, ausgedrückt durch Genauigkeitsindizes, die aus einer Kreuztabelle der Testergebnisse gegen einen Referenzstandard berechnet werden.

Scope

Dieser Bereich führt den Leser in die Kernmetriken der Genauigkeit ein, die aus dem Vergleich eines Tests mit einem Referenz- („Gold-“) Standard abgeleitet werden, die Unterscheidung zwischen intrinsischen Testeigenschaften und populationsabhängiger prädiktiver Leistung, die Rolle der Krankheitsprävalenz und die Berichtsstandards für Studien zur diagnostischen Genauigkeit. Es handelt sich um eine methodische Übersicht, keine klinische Leitlinie, und es werden keine spezifischen Tests oder Schwellenwerte für Einzelpersonen empfohlen.

Sub-topics

Core questions

Wie oft identifiziert ein Test Personen mit der Erkrankung und Personen ohne die Erkrankung korrekt?
Wie wahrscheinlich ist es bei einem positiven oder negativen Ergebnis, dass die Erkrankung tatsächlich vorhanden oder abwesend ist?
Wie verändert die Prävalenz der Erkrankung in einer Population den praktischen Wert eines Tests?
Wie sollte der Kompromiss zwischen dem Erkennen echter Fälle und dem Vermeiden von Fehlalarmen gewählt und berichtet werden?

Key concepts

Referenz- (Gold-) Standard
Sensitivität und Spezifität
Positiver und negativer prädiktiver Wert
Likelihood-Ratios
Krankheitsprävalenz und Vortestwahrscheinlichkeit
Receiver Operating Characteristic (ROC)-Kurve
Diagnostische Schwelle und Cut-off
Spektrum- und Verifikationsbias

Mechanisms

Die Testevaluation beginnt mit der Kreuzklassifizierung des Testergebnisses (positiv oder negativ) jedes Probanden anhand des wahren Krankheitsstatus, der durch einen Referenzstandard ermittelt wurde. Dies führt zu den vier Zellen einer 2x2-Tabelle (echt Positive, falsch Positive, falsch Negative, echt Negative). Sensitivität und Spezifität werden entlang der Spalten des bekannten Krankheitsstatus abgelesen und sind prinzipiell Eigenschaften des Tests, die nicht davon abhängen, wie häufig die Erkrankung ist. Prädiktive Werte werden entlang der Zeilen des Testergebnisses abgelesen und hängen daher von der Prävalenz ab, da derselbe Test, der bei seltener Krankheit angewendet wird, mehr falsch Positive im Verhältnis zu echt Positiven liefert. Likelihood-Ratios kombinieren Sensitivität und Spezifität zu Faktoren, die die Pre-Test-Odds zu Post-Test-Odds aktualisieren. Wenn ein Test eine kontinuierliche oder ordinale Messung liefert, tauscht das Verschieben des Entscheidungsschwellenwerts Sensitivität gegen Spezifität; das Auftragen dieses Kompromisses über alle Schwellenwerte hinweg ergibt die ROC-Kurve, deren Fläche die Diskriminierung unabhängig von einem einzelnen Cut-off zusammenfasst.

Clinical relevance

Diese Maße sind die gemeinsame Sprache, um zu beurteilen, ob ein Screening- oder Diagnosetest zweckmäßig ist und um konkurrierende Tests zu gleichen Bedingungen zu vergleichen. Ihr Verständnis ist zentral für die kritische Bewertung der diagnostischen Literatur; der Bereich erklärt, wie diagnostische Evidenz generiert und interpretiert wird und ist keine Grundlage für individuelle Diagnose- oder Behandlungsentscheidungen.

Epidemiology

Genauigkeitsmetriken untermauern Entscheidungen über Populations-Screening-Programme, bei denen die Konsequenzen von falsch Positiven und falsch Negativen im großen Maßstab, zusammen mit der Krankheitsprävalenz, bestimmen, ob das Screening mehr Nutzen als Schaden bringt. Berichtsstandards wie STARD wurden entwickelt, um die Vollständigkeit und Transparenz von Studien zur diagnostischen Genauigkeit zu verbessern, und Spektrum- und Verifikationsbias sind anerkannte Bedrohungen für die Validität der berichteten Genauigkeit.

Evidence & guidelines

Die STARD-Erklärung bietet eine Checkliste für die transparente Berichterstattung von Studien zur diagnostischen Genauigkeit und wird von biomedizinischen Fachzeitschriften weithin unterstützt.

History

Die formale Evaluation diagnostischer Tests entwickelte sich aus der Arbeit zur Signalerkennung und klinischen Entscheidungsfindung Mitte des 20. Jahrhunderts und wurde in den 1970er Jahren durch die Erkenntnis geschärft, dass ein voreingenommenes Studiendesign die scheinbare Genauigkeit aufblähen könnte. Die zugänglichen Genauigkeitsmaße wurden in der medizinischen Literatur in den 1990er Jahren populär, und die Berichtsstandards wurden in der STARD-Erklärung in den 2000er Jahren konsolidiert und 2015 aktualisiert.

Debates

Warum kann ein sehr genau klingender Test beim Screening immer noch irreführend sein?: Da prädiktive Werte von der Prävalenz abhängen, kann ein Test mit hoher Sensitivität und Spezifität immer noch viele falsch Positive erzeugen, wenn er auf eine Screening-Population mit geringer Prävalenz angewendet wird, was eine wiederkehrende Quelle für Fehlinterpretationen ist.
Wie stark verzerren Studiendesign-Bias die berichtete Genauigkeit?: Spektrum-Bias und Verifikationsbias können die gemessene Sensitivität und Spezifität erheblich aufblähen, daher muss die berichtete Genauigkeit im Lichte der Auswahl von Fällen und Kontrollen und der Anwendung des Referenzstandards interpretiert werden.

Key figures

Douglas Altman
Jonathan Deeks
David Grimes
Kenneth Schulz
Patrick Bossuyt

Seminal works

ransohoff-feinstein-1978
altman-bland-1994a
altman-bland-1994b
bossuyt-2015

Frequently asked questions

Was ist der Unterschied zwischen einem Screening-Test und einem Diagnosetest?: Ein Screening-Test wird bei scheinbar gesunden Personen angewendet, um diejenigen zu identifizieren, die mit größerer Wahrscheinlichkeit eine Erkrankung haben, wobei in der Regel die Sensitivität bevorzugt wird, während ein Diagnosetest verwendet wird, um eine Krankheit bei Personen zu bestätigen oder auszuschließen, bei denen sie bereits vermutet wird; beide werden mit denselben Genauigkeitsmaßen anhand eines Referenzstandards evaluiert.
Warum ist die Prävalenz für die Nützlichkeit eines Tests wichtig?: Sensitivität und Spezifität beschreiben den Test selbst, aber die Wahrscheinlichkeit, dass ein positives Ergebnis korrekt ist (positiver prädiktiver Wert), sinkt, wenn die Erkrankung seltener wird, sodass derselbe Test in einer Klinik mit hoher Prävalenz informativ und in einem Screening-Setting mit geringer Prävalenz irreführend sein kann.