ความแตกต่างระหว่างการจำแนกและการสอบเทียบคืออะไร?

การจำแนกคือความสามารถของแบบจำลองในการจัดอันดับผู้ป่วยเพื่อให้ผู้ที่ประสบผลลัพธ์ได้รับความเสี่ยงที่พยากรณ์ไว้สูงกว่าผู้ที่ไม่ประสบผลลัพธ์ ในขณะที่การสอบเทียบคือความสอดคล้องกันระหว่างความน่าจะเป็นที่พยากรณ์กับความถี่ที่สังเกตได้; แบบจำลองสามารถจำแนกได้ดีแต่สอบเทียบได้ไม่ดี ดังนั้นทั้งสองจึงมีความสำคัญ

เหตุใดการตรวจสอบความถูกต้องภายนอกจึงมีความสำคัญสำหรับแบบจำลองการพยากรณ์ทางคลินิก?

แบบจำลองมักจะทำงานได้ดีเกินจริงกับข้อมูลที่ใช้ในการสร้าง; การทดสอบกับประชากรและการตั้งค่าที่เป็นอิสระจะเปิดเผยว่าแบบจำลองสามารถสรุปผลได้ดีเพียงใด และป้องกันการนำเครื่องมือไปใช้ที่ล้มเหลวเมื่อกรณีศึกษาหรือเอกสารแตกต่างจากข้อมูลการพัฒนา

การเรียนรู้ของเครื่องและการวิเคราะห์เชิงพยากรณ์ในการดูแลทางคลินิก

การเรียนรู้ของเครื่องและการวิเคราะห์เชิงพยากรณ์ใช้รูปแบบในข้อมูลทางคลินิกและข้อมูลสุขภาพเพื่อประมาณความน่าจะเป็นของผลลัพธ์ เช่น การวินิจฉัย การทรุดลง การกลับเข้ารับการรักษา หรือการตอบสนองต่อการรักษา สำหรับผู้ป่วยแต่ละราย หัวข้อนี้ครอบคลุมถึงวิธีการพัฒนา การตรวจสอบความถูกต้อง และการรายงานแบบจำลองการพยากรณ์ทางคลินิก รวมถึงมาตรฐานระเบียบวิธีวิจัยที่แยกแยะแบบจำลองที่น่าเชื่อถือออกจากแบบจำลองที่ทำให้เข้าใจผิด

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การเรียนรู้ของเครื่องทางคลินิกคือการใช้อัลกอริทึมที่เรียนรู้ความสัมพันธ์ทางสถิติจากข้อมูลผู้ป่วยเพื่อพยากรณ์ผลลัพธ์ที่เกี่ยวข้องทางคลินิก; แบบจำลองการพยากรณ์ทางคลินิกจะรวมตัวพยากรณ์หลายตัวเพื่อประมาณความน่าจะเป็นของการวินิจฉัย (การวินิจฉัย) หรือเหตุการณ์ในอนาคต (การพยากรณ์โรค) สำหรับแต่ละบุคคล

Scope

เนื้อหานี้ครอบคลุมถึงการเรียนรู้แบบมีผู้สอนสำหรับการวินิจฉัยและการพยากรณ์โรค แหล่งข้อมูลและคุณลักษณะที่ใช้ในการตั้งค่าทางคลินิก แนวคิดการตรวจสอบความถูกต้องหลักของการจำแนก การสอบเทียบ และการตรวจสอบความถูกต้องภายนอก ความเสี่ยงของอคติและการเรียนรู้เกิน และมาตรฐานการรายงานและการประเมิน เช่น TRIPOD และ PROBAST เนื้อหานี้กำหนดให้การเรียนรู้ของเครื่องทางคลินิกเป็นหัวข้อระเบียบวิธีวิจัย โดยอธิบายถึงวิธีการสร้างและตัดสินเครื่องมือพยากรณ์ แทนที่จะเสนอคำแนะนำทางคลินิก

Key concepts

การเรียนรู้แบบมีผู้สอน (การวินิจฉัยและการพยากรณ์โรค)
การจำแนก การสอบเทียบ และประโยชน์ทางคลินิก
การตรวจสอบความถูกต้องภายในและภายนอก
การเรียนรู้เกินและการมองโลกในแง่ดี
การเปลี่ยนแปลงชุดข้อมูลและความสามารถในการสรุปผล
อคติของอัลกอริทึมและความเป็นธรรม
มาตรฐานการรายงาน (TRIPOD) และการประเมินความเสี่ยงของอคติ (PROBAST)
การเรียนรู้เชิงลึกและการเรียนรู้คุณลักษณะ

Mechanisms

แบบจำลองการพยากรณ์ทางคลินิกจะถูกปรับให้เข้ากับข้อมูลที่มีป้ายกำกับ โดยเรียนรู้ว่าตัวพยากรณ์มีความสัมพันธ์กับผลลัพธ์อย่างไร จากนั้นจะถูกประเมินเพื่อการจำแนก (ความสามารถในการแยกแยะผู้ที่ประสบและไม่ประสบผลลัพธ์) และการสอบเทียบ (ความสอดคล้องกันระหว่างความน่าจะเป็นที่พยากรณ์กับความถี่ที่สังเกตได้) เนื่องจากแบบจำลองมักจะทำงานได้ดีเกินจริงกับข้อมูลที่ใช้ในการฝึกอบรม การตรวจสอบความถูกต้องภายในและโดยเฉพาะอย่างยิ่งภายนอกในประชากรใหม่จึงเป็นสิ่งจำเป็น และการนำไปใช้งานอาจถูกบ่อนทำลายโดยการเปลี่ยนแปลงชุดข้อมูลเมื่อการตั้งค่าเป้าหมายแตกต่างจากการตั้งค่าการพัฒนา (Rajkomar, 2019) การเรียนรู้เชิงลึกขยายแนวคิดเหล่านี้โดยการเรียนรู้คุณลักษณะโดยตรงจากข้อมูลดิบ เช่น รูปภาพ สัญญาณ หรือข้อความ ซึ่งสามารถปรับปรุงประสิทธิภาพในงานการรับรู้ในขณะที่ทำให้การตีความซับซ้อนขึ้น (Esteva, 2019)

Clinical relevance

แบบจำลองเชิงพยากรณ์มีการป้อนคะแนนความเสี่ยง การแจ้งเตือนล่วงหน้า และเครื่องมือคัดแยกที่ฝังอยู่ในระบบทางคลินิกมากขึ้นเรื่อยๆ ดังนั้นความแม่นยำ การสอบเทียบ และความเป็นธรรมจึงส่งผลโดยตรงต่อคุณภาพของคำแนะนำที่แพทย์ได้รับ เนื้อหานี้อธิบายถึงวิธีการพัฒนาและประเมินแบบจำลองดังกล่าว; ผลลัพธ์ของแบบจำลองเป็นการประมาณค่าความน่าจะเป็นที่ต้องอาศัยการตีความและการกำกับดูแลทางคลินิก และข้อความนี้ไม่ใช่พื้นฐานสำหรับการตัดสินใจวินิจฉัยหรือการรักษาใดๆ ของแต่ละบุคคล

Evidence & guidelines

ฉันทามติทางระเบียบวิธีวิจัยเน้นการพัฒนาที่โปร่งใสและการตรวจสอบความถูกต้องที่เข้มงวด คำแถลง TRIPOD กำหนดมาตรฐานการรายงานสำหรับการศึกษาแบบจำลองการพยากรณ์เพื่อให้สามารถประเมินวิธีการและประสิทธิภาพได้ (Collins, 2015) และ PROBAST จัดหาเครื่องมือที่มีโครงสร้างสำหรับการตัดสินความเสี่ยงของอคติและการประยุกต์ใช้ในการศึกษาดังกล่าว (Wolff, 2019) การทบทวนการเรียนรู้ของเครื่องในทางการแพทย์เน้นการตรวจสอบความถูกต้องภายนอก การสอบเทียบ การให้ความสนใจกับอคติ และช่องว่างระหว่างประสิทธิภาพย้อนหลังกับประโยชน์ทางคลินิกในอนาคต (Rajkomar, 2019; Esteva, 2019)

History

การพยากรณ์ทางคลินิกมีรากฐานมาจากการให้คะแนนความเสี่ยงโดยใช้การถดถอยมานานแล้ว แต่ทศวรรษ 2010 ได้เห็นการเติบโตอย่างรวดเร็วของการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกที่ได้รับข้อมูลจากเวชระเบียนอิเล็กทรอนิกส์ ภาพถ่าย และชุดข้อมูลขนาดใหญ่ ควบคู่ไปกับสิ่งนี้คือความกังวลที่เพิ่มขึ้นเกี่ยวกับความสามารถในการทำซ้ำ ประสิทธิภาพที่กล่าวเกินจริง และอคติ ซึ่งกระตุ้นให้เกิดกรอบการรายงานและการประเมิน (TRIPOD, PROBAST) ที่มีจุดประสงค์เพื่อให้การศึกษาแบบจำลองเป็นไปตามมาตรฐานระเบียบวิธีวิจัยที่สอดคล้องกัน

Debates

เหตุใดแบบจำลองจำนวนมากจึงทำงานได้แย่ลงในการปฏิบัติจริงมากกว่าในการศึกษาการพัฒนา?: การตรวจสอบความถูกต้องภายนอกที่ไม่เพียงพอ การเปลี่ยนแปลงชุดข้อมูลระหว่างการตั้งค่าการพัฒนาและการนำไปใช้งาน และการรายงานในแง่ดี หมายความว่าประสิทธิภาพย้อนหลังที่แข็งแกร่งมักจะไม่สามารถแปลเป็นประโยชน์ทางคลินิกในอนาคตได้ ซึ่งกระตุ้นให้เกิดมาตรฐานการตรวจสอบความถูกต้องและการรายงานที่เข้มงวดขึ้น
ควรจัดการกับอคติของอัลกอริทึมและความเป็นธรรมอย่างไร?: แบบจำลองที่ฝึกอบรมจากข้อมูลในอดีตสามารถเข้ารหัสและขยายความเหลื่อมล้ำได้ ทำให้เกิดการถกเถียงเกี่ยวกับวิธีการวัดความเป็นธรรม เมื่อความแตกต่างของประสิทธิภาพในกลุ่มต่างๆ เป็นที่ยอมรับได้ และวิธีการตรวจสอบแบบจำลองที่นำไปใช้งานเพื่อหาอคติเมื่อเวลาผ่านไป

Key figures

Alvin Rajkomar
Gary S. Collins
Karel G. M. Moons
Isaac Kohane

Seminal works

rajkomar-2019
collins-2015
wolff-2019

Frequently asked questions

ความแตกต่างระหว่างการจำแนกและการสอบเทียบคืออะไร?: การจำแนกคือความสามารถของแบบจำลองในการจัดอันดับผู้ป่วยเพื่อให้ผู้ที่ประสบผลลัพธ์ได้รับความเสี่ยงที่พยากรณ์ไว้สูงกว่าผู้ที่ไม่ประสบผลลัพธ์ ในขณะที่การสอบเทียบคือความสอดคล้องกันระหว่างความน่าจะเป็นที่พยากรณ์กับความถี่ที่สังเกตได้; แบบจำลองสามารถจำแนกได้ดีแต่สอบเทียบได้ไม่ดี ดังนั้นทั้งสองจึงมีความสำคัญ
เหตุใดการตรวจสอบความถูกต้องภายนอกจึงมีความสำคัญสำหรับแบบจำลองการพยากรณ์ทางคลินิก?: แบบจำลองมักจะทำงานได้ดีเกินจริงกับข้อมูลที่ใช้ในการสร้าง; การทดสอบกับประชากรและการตั้งค่าที่เป็นอิสระจะเปิดเผยว่าแบบจำลองสามารถสรุปผลได้ดีเพียงใด และป้องกันการนำเครื่องมือไปใช้ที่ล้มเหลวเมื่อกรณีศึกษาหรือเอกสารแตกต่างจากข้อมูลการพัฒนา