Apakah ada satu alat penilaian kritis yang terbaik untuk setiap studi?

Tidak. Karena desain yang berbeda rentan terhadap bias yang berbeda, sebagian besar penilaian dilakukan dengan alat spesifik desain, dan tinjauan sistematis tidak menemukan instrumen standar emas tunggal yang berfungsi di semua jenis studi.

Mengapa banyak bidang telah beralih dari skor kualitas?

Skor kualitas ringkasan menggabungkan item dengan bobot yang sewenang-wenang dan dapat memberi peringkat studi secara menyesatkan. Alat berbasis domain seperti RoB 2 dan QUADAS-2 justru memberikan penilaian transparan untuk setiap jenis bias, yang lebih dapat dipertahankan dan direproduksi.

Alat dan Daftar Periksa Penilaian Kritis

Alat penilaian kritis adalah instrumen terstruktur — daftar periksa, skala, dan kerangka kerja pertanyaan penanda — yang memandu peninjau melalui validitas, hasil, dan penerapan suatu studi secara eksplisit dan berulang. Dengan mengubah penilaian ahli menjadi serangkaian pertanyaan yang terdefinisi, alat ini membuat penilaian lebih transparan, lebih konsisten antar peninjau, dan lebih mudah dilaporkan.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Alat penilaian kritis adalah seperangkat item atau domain yang telah ditentukan sebelumnya, sering kali dirumuskan sebagai pertanyaan, yang diterapkan oleh peninjau pada studi individual untuk membuat penilaian eksplisit berbasis kriteria tentang risiko biasnya, interpretasi hasilnya, dan penerapannya.

Scope

Topik ini mencakup jenis-jenis instrumen penilaian dan alasan di baliknya: daftar periksa generik (seperti seri CASP dan Panduan Pengguna), alat risiko bias spesifik desain (seperti RoB 2 untuk uji coba acak dan QUADAS-2 untuk studi akurasi diagnostik), dan perbedaan antara daftar periksa sederhana, skala kualitas ringkasan, dan alat penilaian berbasis domain. Ini bersifat referensi-edukasi dan tidak mendukung satu alat pun untuk keputusan klinis.

Core questions

Jenis instrumen penilaian apa saja yang ada, dan bagaimana perbedaan antara daftar periksa, skala, dan alat berbasis domain?
Mengapa sebagian besar alat penilaian bersifat spesifik desain daripada universal?
Apa perbedaan antara skor kualitas ringkasan dan penilaian risiko bias berbasis domain?
Seberapa besar pilihan alat memengaruhi penilaian studi yang sama?

Key concepts

Daftar periksa penilaian generik (CASP, Panduan Pengguna)
Alat risiko bias spesifik desain (RoB 2, QUADAS-2)
Pertanyaan penanda
Penilaian berbasis domain versus skor kualitas ringkasan
Keandalan antar-penilai dalam penilaian
Reproduksibilitas penilaian

Mechanisms

Alat penilaian mengoperasionalkan logika validitas-hasil-penerapan generik dari kedokteran berbasis bukti menjadi item konkret yang disesuaikan dengan desain tertentu. Daftar periksa generik seperti CASP dan JAMA Users' Guides memandu pembaca melalui tiga pertanyaan yang sama untuk setiap makalah (Guyatt 1993; Greenhalgh 1997). Alat berbasis domain modern melangkah lebih jauh dengan mengelompokkan item ke dalam domain bias — misalnya RoB 2 mengevaluasi uji coba acak di seluruh domain seperti proses randomisasi, penyimpangan dari intervensi yang dimaksudkan, data hasil yang hilang, pengukuran hasil, dan pemilihan hasil yang dilaporkan, mencapai penilaian per-domain dan keseluruhan melalui pertanyaan penanda (Sterne 2019). QUADAS-2 menerapkan arsitektur domain-dan-pertanyaan-penanda yang sama untuk studi akurasi diagnostik (Whiting 2011). Pergeseran dari skala ringkasan numerik ke penilaian berbasis domain mencerminkan bukti bahwa pembobotan item daftar periksa yang sewenang-wenang dapat menyesatkan, dan bahwa penalaran per-domain yang transparan lebih dapat dipertahankan.

Clinical relevance

Alat-alat ini digunakan oleh dokter, mahasiswa, dan peninjau sistematis untuk membuat penilaian studi individual menjadi eksplisit dan dapat diaudit. Alat-alat ini menjelaskan bagaimana keandalan penelitian dinilai; alat-alat ini mengkarakterisasi bukti dan bukan merupakan dasar untuk mendiagnosis atau mengobati pasien individual mana pun.

Evidence & guidelines

Tinjauan sistematis terhadap lebih dari seratus alat penilaian menemukan heterogenitas substansial dalam konten dan tidak ada standar emas tunggal yang tervalidasi untuk desain studi apa pun, menggarisbawahi bahwa pemilihan alat itu sendiri adalah keputusan metodologis (Katrak 2004). Praktik kontemporer mendukung instrumen berbasis domain yang spesifik desain — RoB 2 untuk uji coba acak dan QUADAS-2 untuk studi akurasi diagnostik secara luas didukung dalam panduan Cochrane dan tinjauan sistematis lainnya (Sterne 2019; Whiting 2011) — dan tidak menganjurkan mengubah penilaian ini menjadi skor kualitas ringkasan tunggal.

History

Bantuan penilaian awal adalah panduan membaca naratif; McMaster Users' Guides tahun 1990-an dan daftar periksa CASP yang mengikutinya memberikan set pertanyaan spesifik jenis studi yang eksplisit kepada para klinisi (Guyatt 1993; Greenhalgh 1997). Seiring dengan kematangan tinjauan sistematis, bidang ini beralih dari daftar periksa sederhana dan skala kualitas numerik menuju alat risiko bias berbasis domain, yang dicontohkan oleh QUADAS-2 untuk studi diagnostik (Whiting 2011) dan RoB 2 yang direvisi untuk uji coba acak (Sterne 2019), mencerminkan bukti yang terkumpul bahwa skor ringkasan dapat tidak dapat diandalkan.

Debates

Skor kualitas versus penilaian berbasis domain: Menggabungkan banyak item penilaian menjadi satu skor kualitas numerik bergantung pada pembobotan yang sewenang-wenang dan dapat menghasilkan peringkat yang menyesatkan; konsensus metodologis saat ini mendukung penilaian risiko bias per-domain yang transparan daripada skala ringkasan.
Kurangnya alat standar emas universal: Banyaknya alat dengan konten yang berbeda dan tidak adanya instrumen referensi yang tervalidasi untuk desain apa pun berarti studi yang sama dapat dinilai secara berbeda tergantung pada alatnya, menimbulkan kekhawatiran tentang reproduksibilitas.

Key figures

Julian Higgins
Jonathan Sterne
Penny Whiting
Gordon Guyatt
Trisha Greenhalgh

Seminal works

katrak-2004
sterne-2019-rob2
whiting-2011-quadas2

Frequently asked questions

Apakah ada satu alat penilaian kritis yang terbaik untuk setiap studi?: Tidak. Karena desain yang berbeda rentan terhadap bias yang berbeda, sebagian besar penilaian dilakukan dengan alat spesifik desain, dan tinjauan sistematis tidak menemukan instrumen standar emas tunggal yang berfungsi di semua jenis studi.
Mengapa banyak bidang telah beralih dari skor kualitas?: Skor kualitas ringkasan menggabungkan item dengan bobot yang sewenang-wenang dan dapat memberi peringkat studi secara menyesatkan. Alat berbasis domain seperti RoB 2 dan QUADAS-2 justru memberikan penilaian transparan untuk setiap jenis bias, yang lebih dapat dipertahankan dan direproduksi.