มีเครื่องมือประเมินเชิงวิพากษ์ที่ดีที่สุดสำหรับทุกการศึกษาหรือไม่?

ไม่มี เนื่องจากรูปแบบการศึกษาที่แตกต่างกันมีแนวโน้มที่จะเกิดอคติที่แตกต่างกัน การประเมินส่วนใหญ่จึงทำด้วยเครื่องมือที่จำเพาะกับการออกแบบ และการทบทวนวรรณกรรมอย่างเป็นระบบพบว่าไม่มีเครื่องมือมาตรฐานทองคำเพียงหนึ่งเดียวที่ใช้ได้กับทุกประเภทการศึกษา

เหตุใดหลายสาขาจึงเลิกใช้คะแนนคุณภาพ?

คะแนนคุณภาพสรุปจะรวมรายการต่างๆ เข้าด้วยกันโดยให้น้ำหนักตามอำเภอใจและอาจจัดอันดับการศึกษาผิดพลาดได้ เครื่องมือที่อิงตามโดเมน เช่น RoB 2 และ QUADAS-2 จะให้การตัดสินที่โปร่งใสสำหรับอคติแต่ละประเภท ซึ่งมีความสมเหตุสมผลและทำซ้ำได้มากกว่า

เครื่องมือและรายการตรวจสอบสำหรับการประเมินเชิงวิพากษ์

เครื่องมือประเมินเชิงวิพากษ์เป็นเครื่องมือที่มีโครงสร้าง เช่น รายการตรวจสอบ มาตรวัด และกรอบคำถามนำทาง ซึ่งช่วยนำทางผู้ทบทวนในการพิจารณาความถูกต้อง ผลลัพธ์ และการนำไปใช้ประโยชน์ของการศึกษาได้อย่างชัดเจนและทำซ้ำได้ การเปลี่ยนการตัดสินของผู้เชี่ยวชาญให้เป็นชุดคำถามที่กำหนดไว้ ทำให้การประเมินมีความโปร่งใสมากขึ้น มีความสอดคล้องกันระหว่างผู้ทบทวน และง่ายต่อการรายงาน

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

เครื่องมือประเมินเชิงวิพากษ์คือชุดของรายการหรือโดเมนที่กำหนดไว้ล่วงหน้า ซึ่งมักจะอยู่ในรูปของคำถาม ที่ผู้ทบทวนนำไปใช้กับการศึกษาแต่ละชิ้น เพื่อทำการตัดสินอย่างชัดเจนตามเกณฑ์เกี่ยวกับความเสี่ยงของการเกิดอคติ ความสามารถในการตีความผลลัพธ์ และการนำไปใช้ประโยชน์

Scope

หัวข้อนี้ครอบคลุมประเภทของเครื่องมือประเมินและเหตุผลเบื้องหลัง: รายการตรวจสอบทั่วไป (เช่น ชุด CASP และ Users' Guides), เครื่องมือประเมินความเสี่ยงของการเกิดอคติที่จำเพาะกับการออกแบบการศึกษา (เช่น RoB 2 สำหรับการทดลองแบบสุ่มและ QUADAS-2 สำหรับการศึกษาความแม่นยำของการวินิจฉัย), และความแตกต่างระหว่างรายการตรวจสอบแบบง่าย มาตรวัดคุณภาพสรุป และเครื่องมือการตัดสินตามโดเมน เนื้อหานี้มีวัตถุประสงค์เพื่อการศึกษาอ้างอิงและไม่รับรองเครื่องมือใดเครื่องมือหนึ่งสำหรับการตัดสินใจทางคลินิก

Core questions

มีเครื่องมือประเมินประเภทใดบ้าง และรายการตรวจสอบ มาตรวัด และเครื่องมือที่อิงตามโดเมนแตกต่างกันอย่างไร?
เหตุใดเครื่องมือประเมินส่วนใหญ่จึงจำเพาะกับการออกแบบการศึกษามากกว่าที่จะเป็นสากล?
ความแตกต่างระหว่างคะแนนคุณภาพสรุปและการตัดสินความเสี่ยงของการเกิดอคติที่อิงตามโดเมนคืออะไร?
การเลือกเครื่องมือมีผลต่อการประเมินการศึกษาเดียวกันมากน้อยเพียงใด?

Key concepts

รายการตรวจสอบการประเมินทั่วไป (CASP, Users' Guides)
เครื่องมือประเมินความเสี่ยงของการเกิดอคติที่จำเพาะกับการออกแบบ (RoB 2, QUADAS-2)
คำถามนำทาง
การตัดสินตามโดเมนเทียบกับคะแนนคุณภาพสรุป
ความน่าเชื่อถือระหว่างผู้ประเมินของการประเมิน
ความสามารถในการทำซ้ำของการตัดสินการประเมิน

Mechanisms

เครื่องมือประเมินจะนำตรรกะทั่วไปของความถูกต้อง-ผลลัพธ์-การนำไปใช้ประโยชน์ของการแพทย์เชิงประจักษ์มาใช้ในรายการที่เป็นรูปธรรมซึ่งเชื่อมโยงกับการออกแบบเฉพาะ รายการตรวจสอบทั่วไป เช่น CASP และ JAMA Users' Guides จะนำผู้อ่านผ่านคำถามสามข้อเดียวกันสำหรับการศึกษาใดๆ (Guyatt 1993; Greenhalgh 1997) เครื่องมือที่ใช้โดเมนที่ทันสมัยจะก้าวหน้าไปอีกขั้นโดยการจัดกลุ่มรายการต่างๆ เข้าเป็นโดเมนของอคติ — ตัวอย่างเช่น RoB 2 ประเมินการทดลองแบบสุ่มในโดเมนต่างๆ เช่น กระบวนการสุ่ม การเบี่ยงเบนจากการแทรกแซงที่ตั้งใจไว้ ข้อมูลผลลัพธ์ที่ขาดหายไป การวัดผลลัพธ์ และการเลือกผลลัพธ์ที่รายงาน โดยการตัดสินใจต่อโดเมนและโดยรวมผ่านคำถามนำทาง (Sterne 2019) QUADAS-2 ใช้สถาปัตยกรรมโดเมนและคำถามนำทางเดียวกันกับการศึกษาความแม่นยำของการวินิจฉัย (Whiting 2011) การเปลี่ยนจากมาตรวัดสรุปเชิงตัวเลขไปสู่การตัดสินตามโดเมนสะท้อนให้เห็นถึงหลักฐานที่ว่าการให้น้ำหนักตามอำเภอใจกับรายการตรวจสอบอาจทำให้เข้าใจผิดได้ และการให้เหตุผลต่อโดเมนอย่างโปร่งใสมีความสมเหตุสมผลมากกว่า

Clinical relevance

เครื่องมือเหล่านี้ถูกใช้โดยแพทย์ นักศึกษา และผู้ทบทวนวรรณกรรมอย่างเป็นระบบ เพื่อให้การประเมินการศึกษาแต่ละชิ้นมีความชัดเจนและตรวจสอบได้ เครื่องมือเหล่านี้อธิบายวิธีการประเมินความน่าเชื่อถือของการวิจัย; พวกมันบ่งชี้ลักษณะของหลักฐานและไม่ใช่พื้นฐานสำหรับการวินิจฉัยหรือการรักษาผู้ป่วยรายบุคคล

Evidence & guidelines

การทบทวนวรรณกรรมอย่างเป็นระบบของเครื่องมือประเมินกว่าร้อยรายการพบความแตกต่างอย่างมากในเนื้อหาและไม่มีมาตรฐานทองคำที่ได้รับการตรวจสอบความถูกต้องเพียงหนึ่งเดียวสำหรับการออกแบบการศึกษาใดๆ ซึ่งเน้นย้ำว่าการเลือกเครื่องมือเป็นส่วนหนึ่งของการตัดสินใจทางระเบียบวิธีวิจัย (Katrak 2004) การปฏิบัติร่วมสมัยนิยมใช้เครื่องมือที่จำเพาะกับการออกแบบและอิงตามโดเมน — RoB 2 สำหรับการทดลองแบบสุ่มและ QUADAS-2 สำหรับการศึกษาความแม่นยำของการวินิจฉัยได้รับการรับรองอย่างกว้างขวางใน Cochrane และแนวทางการทบทวนวรรณกรรมอย่างเป็นระบบอื่นๆ (Sterne 2019; Whiting 2011) — และไม่สนับสนุนการแปลงการตัดสินเหล่านี้ให้เป็นคะแนนคุณภาพสรุปเพียงคะแนนเดียว

History

เครื่องมือช่วยประเมินในยุคแรกๆ เป็นคู่มือการอ่านเชิงบรรยาย; McMaster Users' Guides ในทศวรรษ 1990 และรายการตรวจสอบ CASP ที่ตามมา ได้ให้ชุดคำถามที่ชัดเจนและจำเพาะกับประเภทการศึกษาแก่แพทย์ (Guyatt 1993; Greenhalgh 1997) เมื่อการทบทวนวรรณกรรมอย่างเป็นระบบพัฒนาขึ้น สาขาวิชานี้ได้เปลี่ยนจากรายการตรวจสอบแบบง่ายและมาตรวัดคุณภาพเชิงตัวเลขไปสู่เครื่องมือประเมินความเสี่ยงของการเกิดอคติที่อิงตามโดเมน ซึ่งเป็นตัวอย่างโดย QUADAS-2 สำหรับการศึกษาการวินิจฉัย (Whiting 2011) และ RoB 2 ฉบับปรับปรุงสำหรับการทดลองแบบสุ่ม (Sterne 2019) ซึ่งสะท้อนให้เห็นถึงหลักฐานที่สะสมว่าคะแนนสรุปอาจไม่น่าเชื่อถือ

Debates

คะแนนคุณภาพเทียบกับการตัดสินตามโดเมน: การรวมรายการประเมินจำนวนมากเข้าเป็นคะแนนคุณภาพเชิงตัวเลขเดียวขึ้นอยู่กับการให้น้ำหนักตามอำเภอใจและอาจทำให้การจัดอันดับผิดพลาดได้; ฉันทามติทางระเบียบวิธีวิจัยในปัจจุบันนิยมการตัดสินความเสี่ยงของการเกิดอคติที่โปร่งใสและอิงตามโดเมนมากกว่ามาตรวัดสรุป
การขาดเครื่องมือมาตรฐานทองคำสากล: การแพร่หลายของเครื่องมือที่มีเนื้อหาแตกต่างกันและไม่มีเครื่องมืออ้างอิงที่ได้รับการตรวจสอบความถูกต้องสำหรับการออกแบบใดๆ หมายความว่าการศึกษาเดียวกันสามารถถูกประเมินแตกต่างกันไปขึ้นอยู่กับเครื่องมือ ซึ่งก่อให้เกิดความกังวลเกี่ยวกับความสามารถในการทำซ้ำ

Key figures

Julian Higgins
Jonathan Sterne
Penny Whiting
Gordon Guyatt
Trisha Greenhalgh

Seminal works

katrak-2004
sterne-2019-rob2
whiting-2011-quadas2

Frequently asked questions

มีเครื่องมือประเมินเชิงวิพากษ์ที่ดีที่สุดสำหรับทุกการศึกษาหรือไม่?: ไม่มี เนื่องจากรูปแบบการศึกษาที่แตกต่างกันมีแนวโน้มที่จะเกิดอคติที่แตกต่างกัน การประเมินส่วนใหญ่จึงทำด้วยเครื่องมือที่จำเพาะกับการออกแบบ และการทบทวนวรรณกรรมอย่างเป็นระบบพบว่าไม่มีเครื่องมือมาตรฐานทองคำเพียงหนึ่งเดียวที่ใช้ได้กับทุกประเภทการศึกษา
เหตุใดหลายสาขาจึงเลิกใช้คะแนนคุณภาพ?: คะแนนคุณภาพสรุปจะรวมรายการต่างๆ เข้าด้วยกันโดยให้น้ำหนักตามอำเภอใจและอาจจัดอันดับการศึกษาผิดพลาดได้ เครื่องมือที่อิงตามโดเมน เช่น RoB 2 และ QUADAS-2 จะให้การตัดสินที่โปร่งใสสำหรับอคติแต่ละประเภท ซึ่งมีความสมเหตุสมผลและทำซ้ำได้มากกว่า