การประเมินการคัดกรองและการทดสอบวินิจฉัย
การประเมินการคัดกรองและการทดสอบวินิจฉัยเป็นสาขาหนึ่งของระบาดวิทยาที่วัดว่าการทดสอบสามารถแยกแยะผู้ที่มีภาวะเป้าหมายออกจากผู้ที่ไม่มีภาวะดังกล่าวได้ดีเพียงใด โดยให้ค่าชี้วัดต่างๆ เช่น ความไว (sensitivity), ความจำเพาะ (specificity), ค่าทำนาย (predictive values), อัตราส่วนความน่าจะเป็น (likelihood ratios) และเส้นโค้งลักษณะการทำงานของผู้รับ (receiver operating characteristic curve) ซึ่งใช้ในการตัดสินการทดสอบเทียบกับมาตรฐานอ้างอิง และเพื่อคาดการณ์ว่าการทดสอบจะทำงานอย่างไรเมื่อนำไปใช้กับประชากร
Definition
การประเมินการคัดกรองและการทดสอบวินิจฉัยคือการวัดอย่างเป็นระบบถึงความสามารถของการทดสอบในการจำแนกกลุ่มตัวอย่างตามสถานะโรคที่แท้จริง ซึ่งแสดงออกผ่านดัชนีความแม่นยำที่คำนวณจากการจัดกลุ่มไขว้ผลการทดสอบเทียบกับมาตรฐานอ้างอิง
Scope
สาขาความรู้นี้จะแนะนำผู้อ่านให้รู้จักกับเมตริกความแม่นยำหลักที่ได้จากการเปรียบเทียบการทดสอบกับมาตรฐานอ้างอิง ("ทองคำ"), ความแตกต่างระหว่างคุณสมบัติการทดสอบภายในและการทำงานของค่าทำนายที่ขึ้นอยู่กับประชากร, บทบาทของความชุกของโรค, และมาตรฐานการรายงานสำหรับการศึกษาความแม่นยำในการวินิจฉัย นี่คือภาพรวมทางระเบียบวิธีวิจัย ไม่ใช่แนวทางปฏิบัติทางคลินิก และไม่ได้แนะนำการทดสอบหรือเกณฑ์เฉพาะสำหรับแต่ละบุคคล
Sub-topics
Core questions
- การทดสอบสามารถระบุผู้ที่มีภาวะและผู้ที่ไม่มีภาวะได้อย่างถูกต้องบ่อยเพียงใด?
- เมื่อได้ผลบวกหรือลบ มีโอกาสมากน้อยเพียงใดที่ภาวะนั้นมีอยู่จริงหรือไม่มีอยู่จริง?
- ความชุกของภาวะในประชากรเปลี่ยนแปลงคุณค่าเชิงปฏิบัติของการทดสอบอย่างไร?
- ควรเลือกและรายงานการแลกเปลี่ยนระหว่างการตรวจจับกรณีจริงและการหลีกเลี่ยงการเตือนที่ผิดพลาดอย่างไร?
Key concepts
- มาตรฐานอ้างอิง (ทองคำ)
- ความไวและความจำเพาะ
- ค่าทำนายผลบวกและผลลบ
- อัตราส่วนความน่าจะเป็น
- ความชุกของโรคและความน่าจะเป็นก่อนการทดสอบ
- เส้นโค้งลักษณะการทำงานของผู้รับ (ROC curve)
- เกณฑ์การวินิจฉัยและจุดตัด
- อคติจากสเปกตรัมและการตรวจสอบยืนยัน
Mechanisms
การประเมินการทดสอบเริ่มต้นด้วยการจัดกลุ่มไขว้ผลการทดสอบของแต่ละบุคคล (เป็นบวกหรือลบ) เทียบกับสถานะโรคที่แท้จริงซึ่งกำหนดโดยมาตรฐานอ้างอิง ทำให้เกิดเซลล์สี่ช่องในตาราง 2x2 (ผลบวกจริง, ผลบวกปลอม, ผลลบปลอม, ผลลบจริง) ความไวและความจำเพาะจะอ่านตามคอลัมน์ของสถานะโรคที่ทราบ และโดยหลักการแล้วเป็นคุณสมบัติของการทดสอบที่ไม่ขึ้นอยู่กับความชุกของภาวะนั้นๆ ค่าทำนายจะอ่านตามแถวของผลการทดสอบและดังนั้นจึงขึ้นอยู่กับความชุก เนื่องจากเมื่อใช้การทดสอบเดียวกันในกรณีที่โรคหายาก จะให้ผลบวกปลอมมากกว่าผลบวกจริง อัตราส่วนความน่าจะเป็นจะรวมความไวและความจำเพาะเข้าด้วยกันเป็นปัจจัยที่ปรับอัตราต่อรองก่อนการทดสอบให้เป็นอัตราต่อรองหลังการทดสอบ เมื่อการทดสอบให้ค่าการวัดแบบต่อเนื่องหรือแบบเรียงลำดับ การเลื่อนเกณฑ์การตัดสินจะแลกเปลี่ยนความไวกับความจำเพาะ การพล็อตการแลกเปลี่ยนนั้นตลอดทุกเกณฑ์จะให้เส้นโค้ง ROC ซึ่งพื้นที่ใต้เส้นโค้งจะสรุปความสามารถในการแยกแยะโดยไม่ขึ้นกับจุดตัดจุดเดียว
Clinical relevance
มาตรการเหล่านี้เป็นภาษาที่ใช้ร่วมกันในการประเมินว่าการคัดกรองหรือการทดสอบวินิจฉัยเหมาะสมกับวัตถุประสงค์หรือไม่ และเพื่อเปรียบเทียบการทดสอบที่แข่งขันกันในเงื่อนไขที่เท่าเทียมกัน การทำความเข้าใจมาตรการเหล่านี้เป็นสิ่งสำคัญต่อการประเมินวรรณกรรมด้านการวินิจฉัยอย่างมีวิจารณญาณ พื้นที่นี้อธิบายถึงวิธีการสร้างและตีความหลักฐานการวินิจฉัย และไม่ใช่พื้นฐานสำหรับการตัดสินใจวินิจฉัยหรือการรักษาของแต่ละบุคคล
Epidemiology
เมตริกความแม่นยำเป็นพื้นฐานในการตัดสินใจเกี่ยวกับโครงการคัดกรองประชากร ซึ่งผลที่ตามมาของผลบวกปลอมและผลลบปลอมในวงกว้าง ควบคู่ไปกับความชุกของโรค จะเป็นตัวกำหนดว่าการคัดกรองก่อให้เกิดประโยชน์มากกว่าโทษหรือไม่ มาตรฐานการรายงานเช่น STARD ได้รับการพัฒนาขึ้นเพื่อปรับปรุงความสมบูรณ์และความโปร่งใสของการศึกษาความแม่นยำในการวินิจฉัย และอคติจากสเปกตรัมและการตรวจสอบยืนยันเป็นภัยคุกคามที่ได้รับการยอมรับต่อความถูกต้องของความแม่นยำที่รายงาน
Evidence & guidelines
แถลงการณ์ STARD มีรายการตรวจสอบสำหรับการรายงานที่โปร่งใสของการศึกษาความแม่นยำในการวินิจฉัย และได้รับการรับรองอย่างกว้างขวางจากวารสารชีวการแพทย์
History
การประเมินการทดสอบวินิจฉัยอย่างเป็นทางการเติบโตมาจากการทำงานในช่วงกลางศตวรรษที่ 20 เกี่ยวกับการตรวจจับสัญญาณและการตัดสินใจทางคลินิก และได้รับการพัฒนาให้เฉียบคมขึ้นจากการตระหนักในปี 1970 ว่าการออกแบบการศึกษาที่มีอคติอาจทำให้ความแม่นยำที่ปรากฏสูงเกินจริง มาตรการความแม่นยำที่เข้าถึงได้เป็นที่นิยมในวรรณกรรมทางการแพทย์ตลอดช่วงทศวรรษ 1990 และมาตรฐานการรายงานได้รับการรวบรวมในแถลงการณ์ STARD ในช่วงทศวรรษ 2000 และปรับปรุงในปี 2015
Debates
- เหตุใดการทดสอบที่ดูเหมือนแม่นยำสูงยังคงทำให้เข้าใจผิดในการคัดกรองได้?
- เนื่องจากค่าทำนายขึ้นอยู่กับความชุก การทดสอบที่มีความไวและความจำเพาะสูงยังคงสามารถสร้างผลบวกปลอมจำนวนมากได้เมื่อนำไปใช้กับประชากรคัดกรองที่มีความชุกต่ำ ซึ่งเป็นแหล่งที่มาของการตีความผิดซ้ำๆ
- อคติจากการออกแบบการศึกษามีผลต่อความแม่นยำที่รายงานมากน้อยเพียงใด?
- อคติจากสเปกตรัมและอคติจากการตรวจสอบยืนยันสามารถทำให้ความไวและความจำเพาะที่วัดได้สูงเกินจริงอย่างมาก ดังนั้นความแม่นยำที่รายงานจึงต้องถูกตีความโดยพิจารณาจากวิธีการเลือกผู้ป่วยและกลุ่มควบคุม และวิธีการใช้มาตรฐานอ้างอิง
Key figures
- Douglas Altman
- Jonathan Deeks
- David Grimes
- Kenneth Schulz
- Patrick Bossuyt
Related topics
Seminal works
- ransohoff-feinstein-1978
- altman-bland-1994a
- altman-bland-1994b
- bossuyt-2015
Frequently asked questions
- การทดสอบคัดกรองและการทดสอบวินิจฉัยแตกต่างกันอย่างไร?
- การทดสอบคัดกรองใช้กับผู้ที่ดูเหมือนมีสุขภาพดีเพื่อระบุผู้ที่มีแนวโน้มที่จะมีภาวะ โดยมักจะเน้นความไว ในขณะที่การทดสอบวินิจฉัยใช้เพื่อยืนยันหรือแยกโรคในผู้ที่สงสัยว่าเป็นโรคอยู่แล้ว ทั้งสองอย่างได้รับการประเมินด้วยมาตรการความแม่นยำเดียวกันเทียบกับมาตรฐานอ้างอิง
- เหตุใดความชุกจึงมีความสำคัญต่อประโยชน์ของการทดสอบ?
- ความไวและความจำเพาะอธิบายตัวการทดสอบเอง แต่โอกาสที่ผลบวกจะถูกต้อง (ค่าทำนายผลบวก) จะลดลงเมื่อภาวะนั้นหายากขึ้น ดังนั้นการทดสอบเดียวกันจึงอาจให้ข้อมูลที่เป็นประโยชน์ในคลินิกที่มีความชุกสูง และทำให้เข้าใจผิดในการตั้งค่าการคัดกรองที่มีความชุกต่ำ