Các Công cụ và Danh mục Kiểm định Phê bình
Các công cụ kiểm định phê bình là những công cụ có cấu trúc — danh mục kiểm tra, thang đo và khung câu hỏi tín hiệu — hướng dẫn người đánh giá về tính hợp lệ, kết quả và khả năng áp dụng của một nghiên cứu một cách rõ ràng và có thể lặp lại. Bằng cách biến đánh giá chuyên môn thành một bộ câu hỏi xác định, chúng làm cho việc đánh giá trở nên minh bạch hơn, nhất quán hơn giữa các người đánh giá và dễ báo cáo hơn.
Definition
Một công cụ kiểm định phê bình là một tập hợp các mục hoặc miền được xác định trước, thường được diễn đạt dưới dạng câu hỏi, mà người đánh giá áp dụng cho một nghiên cứu riêng lẻ để đưa ra một phán đoán rõ ràng, dựa trên tiêu chí về nguy cơ sai lệch của nó, khả năng diễn giải kết quả và khả năng áp dụng của nó.
Scope
Chủ đề này bao gồm các nhóm công cụ đánh giá và lý do cơ bản của chúng: danh mục kiểm tra chung (như loạt CASP và Hướng dẫn dành cho Người dùng), công cụ đánh giá nguy cơ sai lệch cụ thể theo thiết kế (như RoB 2 cho các thử nghiệm ngẫu nhiên và QUADAS-2 cho các nghiên cứu độ chính xác chẩn đoán), và sự khác biệt giữa danh mục kiểm tra đơn giản, thang đo chất lượng tóm tắt và công cụ đánh giá dựa trên miền. Đây là tài liệu tham khảo-giáo dục và không xác nhận bất kỳ công cụ đơn lẻ nào cho các quyết định lâm sàng.
Core questions
- Có những loại công cụ đánh giá nào, và danh mục kiểm tra, thang đo, và công cụ dựa trên miền khác nhau như thế nào?
- Tại sao hầu hết các công cụ đánh giá lại cụ thể theo thiết kế chứ không phải là phổ quát?
- Sự khác biệt giữa điểm chất lượng tóm tắt và phán đoán nguy cơ sai lệch dựa trên miền là gì?
- Việc lựa chọn công cụ ảnh hưởng đến việc đánh giá cùng một nghiên cứu đến mức nào?
Key concepts
- Danh mục kiểm tra đánh giá chung (CASP, Hướng dẫn dành cho Người dùng)
- Công cụ đánh giá nguy cơ sai lệch cụ thể theo thiết kế (RoB 2, QUADAS-2)
- Câu hỏi tín hiệu
- Phán đoán dựa trên miền so với điểm chất lượng tóm tắt
- Độ tin cậy giữa các người đánh giá của việc đánh giá
- Khả năng tái tạo các phán đoán đánh giá
Mechanisms
Các công cụ đánh giá vận hành logic hợp lệ-kết quả-khả năng áp dụng chung của y học dựa trên bằng chứng thành các mục cụ thể được gắn với một thiết kế cụ thể. Các danh mục kiểm tra chung như CASP và Hướng dẫn dành cho Người dùng JAMA hướng dẫn người đọc qua ba câu hỏi tương tự cho bất kỳ bài báo nào (Guyatt 1993; Greenhalgh 1997). Các công cụ hiện đại dựa trên miền tiến xa hơn bằng cách nhóm các mục vào các miền sai lệch — ví dụ, RoB 2 đánh giá các thử nghiệm ngẫu nhiên trên các miền như quy trình ngẫu nhiên hóa, sai lệch so với các can thiệp dự định, dữ liệu kết quả bị thiếu, đo lường kết quả và lựa chọn kết quả được báo cáo, đạt được một phán đoán trên mỗi miền và tổng thể thông qua các câu hỏi tín hiệu (Sterne 2019). QUADAS-2 áp dụng cùng kiến trúc miền và câu hỏi tín hiệu cho các nghiên cứu độ chính xác chẩn đoán (Whiting 2011). Sự chuyển đổi từ thang đo tóm tắt số sang đánh giá dựa trên miền phản ánh bằng chứng cho thấy việc trọng số tùy tiện các mục trong danh mục kiểm tra có thể gây hiểu lầm, và rằng lý luận minh bạch trên mỗi miền có tính bảo vệ cao hơn.
Clinical relevance
Các công cụ này được các bác sĩ lâm sàng, sinh viên và người đánh giá tổng quan hệ thống sử dụng để làm cho việc đánh giá các nghiên cứu riêng lẻ trở nên rõ ràng và có thể kiểm toán được. Chúng mô tả cách đánh giá độ tin cậy của nghiên cứu; chúng đặc trưng hóa bằng chứng và bản thân chúng không phải là cơ sở để chẩn đoán hoặc điều trị bất kỳ bệnh nhân cá nhân nào.
Evidence & guidelines
Một tổng quan hệ thống về hơn một trăm công cụ đánh giá đã tìm thấy sự không đồng nhất đáng kể về nội dung và không có tiêu chuẩn vàng được xác nhận duy nhất cho bất kỳ thiết kế nghiên cứu nào, nhấn mạnh rằng việc lựa chọn công cụ bản thân nó là một quyết định phương pháp luận (Katrak 2004). Thực hành đương đại ủng hộ các công cụ cụ thể theo thiết kế, dựa trên miền — RoB 2 cho các thử nghiệm ngẫu nhiên và QUADAS-2 cho các nghiên cứu độ chính xác chẩn đoán được ủng hộ rộng rãi trong Cochrane và các hướng dẫn tổng quan hệ thống khác (Sterne 2019; Whiting 2011) — và không khuyến khích việc chuyển đổi các phán đoán này thành một điểm chất lượng tóm tắt duy nhất.
History
Các công cụ hỗ trợ đánh giá ban đầu là các hướng dẫn đọc tường thuật; Hướng dẫn dành cho Người dùng McMaster của những năm 1990 và các danh mục kiểm tra CASP sau đó đã cung cấp cho các bác sĩ lâm sàng các bộ câu hỏi rõ ràng, cụ thể theo loại nghiên cứu (Guyatt 1993; Greenhalgh 1997). Khi tổng quan hệ thống trưởng thành, lĩnh vực này đã chuyển từ các danh mục kiểm tra đơn giản và thang đo chất lượng số sang các công cụ đánh giá nguy cơ sai lệch dựa trên miền, được minh họa bởi QUADAS-2 cho các nghiên cứu chẩn đoán (Whiting 2011) và RoB 2 sửa đổi cho các thử nghiệm ngẫu nhiên (Sterne 2019), phản ánh bằng chứng tích lũy cho thấy các điểm tóm tắt có thể không đáng tin cậy.
Debates
- Điểm chất lượng so với phán đoán dựa trên miền
- Việc gộp nhiều mục đánh giá thành một điểm chất lượng số duy nhất phụ thuộc vào trọng số tùy tiện và có thể tạo ra các xếp hạng gây hiểu lầm; sự đồng thuận phương pháp luận hiện tại ủng hộ các phán đoán nguy cơ sai lệch minh bạch, trên mỗi miền hơn là các thang đo tóm tắt.
- Thiếu một công cụ tiêu chuẩn vàng phổ quát
- Sự phổ biến của các công cụ với nội dung khác nhau và không có công cụ tham chiếu được xác nhận cho bất kỳ thiết kế nào có nghĩa là cùng một nghiên cứu có thể được đánh giá khác nhau tùy thuộc vào công cụ, gây lo ngại về khả năng tái tạo.
Key figures
- Julian Higgins
- Jonathan Sterne
- Penny Whiting
- Gordon Guyatt
- Trisha Greenhalgh
Related topics
Seminal works
- katrak-2004
- sterne-2019-rob2
- whiting-2011-quadas2
Frequently asked questions
- Có công cụ kiểm định phê bình nào tốt nhất cho mọi nghiên cứu không?
- Không. Vì các thiết kế khác nhau dễ mắc các sai lệch khác nhau, hầu hết việc đánh giá được thực hiện bằng các công cụ cụ thể theo thiết kế, và một tổng quan hệ thống đã không tìm thấy công cụ tiêu chuẩn vàng duy nhất nào hoạt động trên tất cả các loại nghiên cứu.
- Tại sao nhiều lĩnh vực đã chuyển khỏi việc sử dụng điểm chất lượng?
- Điểm chất lượng tóm tắt kết hợp các mục với trọng số tùy tiện và có thể xếp hạng các nghiên cứu một cách gây hiểu lầm. Các công cụ dựa trên miền như RoB 2 và QUADAS-2 thay vào đó đưa ra một phán đoán minh bạch cho từng loại sai lệch, điều này có tính bảo vệ và khả năng tái tạo cao hơn.