การเรียนรู้ของเครื่องและการวิเคราะห์เชิงพยากรณ์ในการดูแลทางคลินิก
การเรียนรู้ของเครื่องและการวิเคราะห์เชิงพยากรณ์ใช้รูปแบบในข้อมูลทางคลินิกและข้อมูลสุขภาพเพื่อประมาณความน่าจะเป็นของผลลัพธ์ เช่น การวินิจฉัย การทรุดลง การกลับเข้ารับการรักษา หรือการตอบสนองต่อการรักษา สำหรับผู้ป่วยแต่ละราย หัวข้อนี้ครอบคลุมถึงวิธีการพัฒนา การตรวจสอบความถูกต้อง และการรายงานแบบจำลองการพยากรณ์ทางคลินิก รวมถึงมาตรฐานระเบียบวิธีวิจัยที่แยกแยะแบบจำลองที่น่าเชื่อถือออกจากแบบจำลองที่ทำให้เข้าใจผิด
Definition
การเรียนรู้ของเครื่องทางคลินิกคือการใช้อัลกอริทึมที่เรียนรู้ความสัมพันธ์ทางสถิติจากข้อมูลผู้ป่วยเพื่อพยากรณ์ผลลัพธ์ที่เกี่ยวข้องทางคลินิก; แบบจำลองการพยากรณ์ทางคลินิกจะรวมตัวพยากรณ์หลายตัวเพื่อประมาณความน่าจะเป็นของการวินิจฉัย (การวินิจฉัย) หรือเหตุการณ์ในอนาคต (การพยากรณ์โรค) สำหรับแต่ละบุคคล
Scope
เนื้อหานี้ครอบคลุมถึงการเรียนรู้แบบมีผู้สอนสำหรับการวินิจฉัยและการพยากรณ์โรค แหล่งข้อมูลและคุณลักษณะที่ใช้ในการตั้งค่าทางคลินิก แนวคิดการตรวจสอบความถูกต้องหลักของการจำแนก การสอบเทียบ และการตรวจสอบความถูกต้องภายนอก ความเสี่ยงของอคติและการเรียนรู้เกิน และมาตรฐานการรายงานและการประเมิน เช่น TRIPOD และ PROBAST เนื้อหานี้กำหนดให้การเรียนรู้ของเครื่องทางคลินิกเป็นหัวข้อระเบียบวิธีวิจัย โดยอธิบายถึงวิธีการสร้างและตัดสินเครื่องมือพยากรณ์ แทนที่จะเสนอคำแนะนำทางคลินิก
Key concepts
- การเรียนรู้แบบมีผู้สอน (การวินิจฉัยและการพยากรณ์โรค)
- การจำแนก การสอบเทียบ และประโยชน์ทางคลินิก
- การตรวจสอบความถูกต้องภายในและภายนอก
- การเรียนรู้เกินและการมองโลกในแง่ดี
- การเปลี่ยนแปลงชุดข้อมูลและความสามารถในการสรุปผล
- อคติของอัลกอริทึมและความเป็นธรรม
- มาตรฐานการรายงาน (TRIPOD) และการประเมินความเสี่ยงของอคติ (PROBAST)
- การเรียนรู้เชิงลึกและการเรียนรู้คุณลักษณะ
Mechanisms
แบบจำลองการพยากรณ์ทางคลินิกจะถูกปรับให้เข้ากับข้อมูลที่มีป้ายกำกับ โดยเรียนรู้ว่าตัวพยากรณ์มีความสัมพันธ์กับผลลัพธ์อย่างไร จากนั้นจะถูกประเมินเพื่อการจำแนก (ความสามารถในการแยกแยะผู้ที่ประสบและไม่ประสบผลลัพธ์) และการสอบเทียบ (ความสอดคล้องกันระหว่างความน่าจะเป็นที่พยากรณ์กับความถี่ที่สังเกตได้) เนื่องจากแบบจำลองมักจะทำงานได้ดีเกินจริงกับข้อมูลที่ใช้ในการฝึกอบรม การตรวจสอบความถูกต้องภายในและโดยเฉพาะอย่างยิ่งภายนอกในประชากรใหม่จึงเป็นสิ่งจำเป็น และการนำไปใช้งานอาจถูกบ่อนทำลายโดยการเปลี่ยนแปลงชุดข้อมูลเมื่อการตั้งค่าเป้าหมายแตกต่างจากการตั้งค่าการพัฒนา (Rajkomar, 2019) การเรียนรู้เชิงลึกขยายแนวคิดเหล่านี้โดยการเรียนรู้คุณลักษณะโดยตรงจากข้อมูลดิบ เช่น รูปภาพ สัญญาณ หรือข้อความ ซึ่งสามารถปรับปรุงประสิทธิภาพในงานการรับรู้ในขณะที่ทำให้การตีความซับซ้อนขึ้น (Esteva, 2019)
Clinical relevance
แบบจำลองเชิงพยากรณ์มีการป้อนคะแนนความเสี่ยง การแจ้งเตือนล่วงหน้า และเครื่องมือคัดแยกที่ฝังอยู่ในระบบทางคลินิกมากขึ้นเรื่อยๆ ดังนั้นความแม่นยำ การสอบเทียบ และความเป็นธรรมจึงส่งผลโดยตรงต่อคุณภาพของคำแนะนำที่แพทย์ได้รับ เนื้อหานี้อธิบายถึงวิธีการพัฒนาและประเมินแบบจำลองดังกล่าว; ผลลัพธ์ของแบบจำลองเป็นการประมาณค่าความน่าจะเป็นที่ต้องอาศัยการตีความและการกำกับดูแลทางคลินิก และข้อความนี้ไม่ใช่พื้นฐานสำหรับการตัดสินใจวินิจฉัยหรือการรักษาใดๆ ของแต่ละบุคคล
Evidence & guidelines
ฉันทามติทางระเบียบวิธีวิจัยเน้นการพัฒนาที่โปร่งใสและการตรวจสอบความถูกต้องที่เข้มงวด คำแถลง TRIPOD กำหนดมาตรฐานการรายงานสำหรับการศึกษาแบบจำลองการพยากรณ์เพื่อให้สามารถประเมินวิธีการและประสิทธิภาพได้ (Collins, 2015) และ PROBAST จัดหาเครื่องมือที่มีโครงสร้างสำหรับการตัดสินความเสี่ยงของอคติและการประยุกต์ใช้ในการศึกษาดังกล่าว (Wolff, 2019) การทบทวนการเรียนรู้ของเครื่องในทางการแพทย์เน้นการตรวจสอบความถูกต้องภายนอก การสอบเทียบ การให้ความสนใจกับอคติ และช่องว่างระหว่างประสิทธิภาพย้อนหลังกับประโยชน์ทางคลินิกในอนาคต (Rajkomar, 2019; Esteva, 2019)
History
การพยากรณ์ทางคลินิกมีรากฐานมาจากการให้คะแนนความเสี่ยงโดยใช้การถดถอยมานานแล้ว แต่ทศวรรษ 2010 ได้เห็นการเติบโตอย่างรวดเร็วของการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกที่ได้รับข้อมูลจากเวชระเบียนอิเล็กทรอนิกส์ ภาพถ่าย และชุดข้อมูลขนาดใหญ่ ควบคู่ไปกับสิ่งนี้คือความกังวลที่เพิ่มขึ้นเกี่ยวกับความสามารถในการทำซ้ำ ประสิทธิภาพที่กล่าวเกินจริง และอคติ ซึ่งกระตุ้นให้เกิดกรอบการรายงานและการประเมิน (TRIPOD, PROBAST) ที่มีจุดประสงค์เพื่อให้การศึกษาแบบจำลองเป็นไปตามมาตรฐานระเบียบวิธีวิจัยที่สอดคล้องกัน
Debates
- เหตุใดแบบจำลองจำนวนมากจึงทำงานได้แย่ลงในการปฏิบัติจริงมากกว่าในการศึกษาการพัฒนา?
- การตรวจสอบความถูกต้องภายนอกที่ไม่เพียงพอ การเปลี่ยนแปลงชุดข้อมูลระหว่างการตั้งค่าการพัฒนาและการนำไปใช้งาน และการรายงานในแง่ดี หมายความว่าประสิทธิภาพย้อนหลังที่แข็งแกร่งมักจะไม่สามารถแปลเป็นประโยชน์ทางคลินิกในอนาคตได้ ซึ่งกระตุ้นให้เกิดมาตรฐานการตรวจสอบความถูกต้องและการรายงานที่เข้มงวดขึ้น
- ควรจัดการกับอคติของอัลกอริทึมและความเป็นธรรมอย่างไร?
- แบบจำลองที่ฝึกอบรมจากข้อมูลในอดีตสามารถเข้ารหัสและขยายความเหลื่อมล้ำได้ ทำให้เกิดการถกเถียงเกี่ยวกับวิธีการวัดความเป็นธรรม เมื่อความแตกต่างของประสิทธิภาพในกลุ่มต่างๆ เป็นที่ยอมรับได้ และวิธีการตรวจสอบแบบจำลองที่นำไปใช้งานเพื่อหาอคติเมื่อเวลาผ่านไป
Key figures
- Alvin Rajkomar
- Gary S. Collins
- Karel G. M. Moons
- Isaac Kohane
Related topics
Seminal works
- rajkomar-2019
- collins-2015
- wolff-2019
Frequently asked questions
- ความแตกต่างระหว่างการจำแนกและการสอบเทียบคืออะไร?
- การจำแนกคือความสามารถของแบบจำลองในการจัดอันดับผู้ป่วยเพื่อให้ผู้ที่ประสบผลลัพธ์ได้รับความเสี่ยงที่พยากรณ์ไว้สูงกว่าผู้ที่ไม่ประสบผลลัพธ์ ในขณะที่การสอบเทียบคือความสอดคล้องกันระหว่างความน่าจะเป็นที่พยากรณ์กับความถี่ที่สังเกตได้; แบบจำลองสามารถจำแนกได้ดีแต่สอบเทียบได้ไม่ดี ดังนั้นทั้งสองจึงมีความสำคัญ
- เหตุใดการตรวจสอบความถูกต้องภายนอกจึงมีความสำคัญสำหรับแบบจำลองการพยากรณ์ทางคลินิก?
- แบบจำลองมักจะทำงานได้ดีเกินจริงกับข้อมูลที่ใช้ในการสร้าง; การทดสอบกับประชากรและการตั้งค่าที่เป็นอิสระจะเปิดเผยว่าแบบจำลองสามารถสรุปผลได้ดีเพียงใด และป้องกันการนำเครื่องมือไปใช้ที่ล้มเหลวเมื่อกรณีศึกษาหรือเอกสารแตกต่างจากข้อมูลการพัฒนา