Instrumente und Checklisten zur kritischen Bewertung
Instrumente zur kritischen Bewertung sind strukturierte Hilfsmittel – Checklisten, Skalen und Rahmenwerke mit Signalfragen –, die einen Prüfer explizit und reproduzierbar durch die Validität, die Ergebnisse und die Anwendbarkeit einer Studie leiten. Indem sie Expertenurteile in einen definierten Satz von Fragen umwandeln, machen sie die Bewertung transparenter, konsistenter zwischen den Prüfern und erleichtern die Berichterstattung.
Definition
Ein Instrument zur kritischen Bewertung ist ein vordefinierter Satz von Elementen oder Domänen, oft als Fragen formuliert, die ein Prüfer auf eine einzelne Studie anwendet, um ein explizites, kriterienbasiertes Urteil über deren Verzerrungsrisiko, die Interpretierbarkeit ihrer Ergebnisse und ihre Anwendbarkeit zu fällen.
Scope
Dieses Thema behandelt die Familien von Bewertungs-Instrumenten und die dahinterstehende Logik: generische Checklisten (wie die CASP-Reihe und die Users' Guides), design-spezifische Risikobewertungsinstrumente (wie RoB 2 für randomisierte Studien und QUADAS-2 für Studien zur diagnostischen Genauigkeit) und den Unterschied zwischen einfachen Checklisten, zusammenfassenden Qualitätsskalen und domänenbasierten Beurteilungsinstrumenten. Es dient der Referenz und Bildung und befürwortet kein einzelnes Instrument für klinische Entscheidungen.
Core questions
- Welche Arten von Bewertungsinstrumenten gibt es und wie unterscheiden sich Checklisten, Skalen und domänenbasierte Instrumente?
- Warum sind die meisten Bewertungsinstrumente design-spezifisch und nicht universell?
- Was ist der Unterschied zwischen einem zusammenfassenden Qualitäts-Score und einem domänenbasierten Urteil über das Verzerrungsrisiko?
- Wie stark beeinflusst die Wahl des Instruments die Bewertung derselben Studie?
Key concepts
- Generische Bewertungs-Checkliste (CASP, Users' Guides)
- Design-spezifisches Risikobewertungsinstrument (RoB 2, QUADAS-2)
- Signalfragen
- Domänenbasiertes Urteil versus zusammenfassender Qualitäts-Score
- Inter-Rater-Reliabilität der Bewertung
- Reproduzierbarkeit von Bewertungsurteilen
Mechanisms
Bewertungsinstrumente operationalisieren die generische Logik der evidenzbasierten Medizin – Validität, Ergebnisse, Anwendbarkeit – in konkrete Elemente, die auf ein bestimmtes Design zugeschnitten sind. Generische Checklisten wie CASP und die JAMA Users' Guides führen den Leser bei jeder Arbeit durch dieselben drei Fragen (Guyatt 1993; Greenhalgh 1997). Moderne domänenbasierte Instrumente gehen weiter, indem sie Elemente in Verzerrungsdomänen gruppieren – zum Beispiel bewertet RoB 2 randomisierte Studien über Domänen wie den Randomisierungsprozess, Abweichungen von beabsichtigten Interventionen, fehlende Ergebnisdaten, Messung des Ergebnisses und Auswahl des berichteten Ergebnisses, wobei ein domänenbezogenes und Gesamturteil durch Signalfragen erreicht wird (Sterne 2019). QUADAS-2 wendet dieselbe Domänen- und Signalfragen-Architektur auf Studien zur diagnostischen Genauigkeit an (Whiting 2011). Die Verlagerung von numerischen Zusammenfassungsskalen zu domänenbasierten Urteilen spiegelt die Evidenz wider, dass eine willkürliche Gewichtung von Checklisten-Elementen irreführend sein kann und dass eine transparente domänenbezogene Argumentation besser zu verteidigen ist.
Clinical relevance
Diese Instrumente werden von Klinikern, Studenten und systematischen Reviewern verwendet, um die Bewertung einzelner Studien explizit und nachvollziehbar zu machen. Sie beschreiben, wie die Vertrauenswürdigkeit von Forschung bewertet wird; sie charakterisieren Evidenz und sind selbst keine Grundlage für die Diagnose oder Behandlung einzelner Patienten.
Evidence & guidelines
Eine systematische Übersicht von mehr als hundert Bewertungsinstrumenten zeigte eine erhebliche Heterogenität im Inhalt und keinen einzigen validierten Goldstandard für irgendein Studiendesign, was unterstreicht, dass die Wahl des Instruments selbst eine methodische Entscheidung ist (Katrak 2004). Die zeitgenössische Praxis bevorzugt design-spezifische, domänenbasierte Instrumente – RoB 2 für randomisierte Studien und QUADAS-2 für Studien zur diagnostischen Genauigkeit werden in Cochrane und anderen Leitlinien für systematische Reviews weithin befürwortet (Sterne 2019; Whiting 2011) – und rät davon ab, diese Urteile in einen einzigen zusammenfassenden Qualitäts-Score umzuwandeln.
History
Frühe Bewertungshilfen waren narrative Leseleitfäden; die McMaster Users' Guides der 1990er Jahre und die darauf folgenden CASP-Checklisten gaben Klinikern explizite, studientypspezifische Fragensätze an die Hand (Guyatt 1993; Greenhalgh 1997). Mit der Reifung der systematischen Reviews verlagerte sich das Feld von einfachen Checklisten und numerischen Qualitätsskalen hin zu domänenbasierten Risikobewertungsinstrumenten, beispielhaft dargestellt durch QUADAS-2 für diagnostische Studien (Whiting 2011) und das überarbeitete RoB 2 für randomisierte Studien (Sterne 2019), was die sich ansammelnde Evidenz widerspiegelt, dass zusammenfassende Scores unzuverlässig sein könnten.
Debates
- Qualitäts-Scores versus domänenbasiertes Urteil
- Das Zusammenfassen vieler Bewertungs-Elemente zu einem einzigen numerischen Qualitäts-Score hängt von willkürlichen Gewichtungen ab und kann zu irreführenden Ranglisten führen; der aktuelle methodische Konsens bevorzugt transparente, domänenbezogene Urteile über das Verzerrungsrisiko gegenüber zusammenfassenden Skalen.
- Fehlen eines universellen Goldstandard-Instruments
- Die Verbreitung von Instrumenten mit unterschiedlichem Inhalt und ohne validiertes Referenzinstrument für irgendein Design bedeutet, dass dieselbe Studie je nach Instrument unterschiedlich bewertet werden kann, was Bedenken hinsichtlich der Reproduzierbarkeit aufwirft.
Key figures
- Julian Higgins
- Jonathan Sterne
- Penny Whiting
- Gordon Guyatt
- Trisha Greenhalgh
Related topics
Seminal works
- katrak-2004
- sterne-2019-rob2
- whiting-2011-quadas2
Frequently asked questions
- Ist ein Instrument zur kritischen Bewertung für jede Studie am besten geeignet?
- Nein. Da verschiedene Designs anfällig für unterschiedliche Verzerrungen sind, erfolgt die meisten Bewertungen mit design-spezifischen Instrumenten, und eine systematische Übersicht fand kein einziges Goldstandard-Instrument, das für alle Studientypen funktioniert.
- Warum haben sich viele Bereiche von Qualitäts-Scores abgewandt?
- Zusammenfassende Qualitäts-Scores kombinieren Elemente mit willkürlichen Gewichtungen und können Studien irreführend einordnen. Domänenbasierte Instrumente wie RoB 2 und QUADAS-2 geben stattdessen ein transparentes Urteil für jede Art von Verzerrung ab, was besser zu verteidigen und reproduzierbar ist.