การเลือกและการวินิจฉัยแบบจำลอง
การเลือกและการวินิจฉัยแบบจำลองเป็นขั้นตอนที่ใช้ตัดสินว่าตัวพยากรณ์ใดที่แบบจำลองการถดถอยควรมี และแบบจำลองที่สร้างขึ้นนั้นน่าเชื่อถือหรือไม่ การเลือกจะกำหนดและจัดโครงสร้างตัวพยากรณ์ การวินิจฉัยจะตรวจสอบค่าความคลาดเคลื่อน (residuals) ข้อมูลที่มีอิทธิพล (influential observations) และข้อสมมติฐาน และการตรวจสอบความถูกต้อง (validation) จะตรวจสอบว่าแบบจำลองทำงานได้ดีกับข้อมูลที่ไม่ได้ใช้ในการสร้างแบบจำลองหรือไม่ ขั้นตอนเหล่านี้ร่วมกันช่วยป้องกันการเกิดภาวะสร้างแบบจำลองเกินพอดี (overfitting) และข้อสรุปที่ทำให้เข้าใจผิด
Definition
การเลือกแบบจำลองคือกระบวนการตัดสินใจว่าจะรวมตัวพยากรณ์และรูปแบบเชิงฟังก์ชันใดบ้างในแบบจำลองการถดถอย การวินิจฉัยแบบจำลองคือขั้นตอน — การวิเคราะห์ค่าความคลาดเคลื่อน การวัดอิทธิพล การประเมินความเหมาะสมของแบบจำลองและการสอบเทียบ และการตรวจสอบความถูกต้อง — ที่ใช้ในการตัดสินว่าแบบจำลองที่สร้างขึ้นนั้นเป็นไปตามข้อสมมติฐานและทำงานได้อย่างเพียงพอหรือไม่
Scope
บทความนี้ครอบคลุมกลยุทธ์สำหรับการสร้างแบบจำลองการถดถอย (รวมถึงแนวทางแบบขั้นตอนและแบบจำลองเต็มรูปแบบ และอันตรายของการเลือกที่ขับเคลื่อนด้วยข้อมูล) การวินิจฉัยค่าความคลาดเคลื่อนและอิทธิพลสำหรับการตรวจสอบข้อสมมติฐาน มาตรการความเหมาะสมและประสิทธิภาพการพยากรณ์ เช่น การจำแนก (discrimination) และการสอบเทียบ (calibration) และการตรวจสอบความถูกต้องภายในและภายนอก บทความนี้ใช้ได้กับแบบจำลองเชิงเส้นและแบบจำลองโลจิสติก และเป็นหัวข้อทางระเบียบวิธีวิจัย ไม่ใช่คำแนะนำทางคลินิก
Core questions
- เลือกตัวพยากรณ์อย่างไร และเหตุใดการเลือกแบบขั้นตอนอัตโนมัติจึงถูกวิพากษ์วิจารณ์?
- ใช้ค่าความคลาดเคลื่อนและข้อมูลที่มีอิทธิพลในการตรวจสอบแบบจำลองอย่างไร?
- ความแตกต่างระหว่างการจำแนกและการสอบเทียบคืออะไร?
- เหตุใดแบบจำลองการพยากรณ์จึงต้องได้รับการตรวจสอบความถูกต้อง แทนที่จะตัดสินจากข้อมูลที่ใช้สร้างแบบจำลองเท่านั้น?
- การสร้างแบบจำลองเกินพอดีและการมองโลกในแง่ดีบิดเบือนประสิทธิภาพที่ปรากฏได้อย่างไร?
Key concepts
- การเลือกตัวแปร (ตัวพยากรณ์)
- การเลือกแบบขั้นตอนและข้อผิดพลาด
- การวิเคราะห์ค่าความคลาดเคลื่อน
- ข้อมูลที่มีอิทธิพลและ leverage
- ความเหมาะสมของแบบจำลอง
- การจำแนกและการสอบเทียบ
- การสร้างแบบจำลองเกินพอดีและการมองโลกในแง่ดี
- การตรวจสอบความถูกต้องภายในและภายนอก
Mechanisms
การสร้างแบบจำลองการถดถอยเกี่ยวข้องกับการเลือกตัวพยากรณ์ที่จะนำเข้าในรูปแบบใด และจำเป็นต้องมีการปฏิสัมพันธ์หรือไม่ ขั้นตอนอัตโนมัติที่เพิ่มหรือลดตัวพยากรณ์ตามนัยสำคัญมักถูกวิพากษ์วิจารณ์อย่างกว้างขวาง เนื่องจากอาศัยโอกาส สร้างแบบจำลองที่ไม่เสถียร และให้ค่าประมาณที่มองโลกในแง่ดี จากนั้นการวินิจฉัยจะตรวจสอบแบบจำลองที่สร้างขึ้น: แผนภาพค่าความคลาดเคลื่อนจะเผยให้เห็นการเบี่ยงเบนจากความเป็นเชิงเส้นและความแปรปรวนที่ไม่คงที่ และการวัดอิทธิพลจะระบุข้อมูลที่ขับเคลื่อนความเหมาะสมอย่างไม่สมส่วน ประสิทธิภาพจะถูกตัดสินโดยความเหมาะสมของแบบจำลอง และสำหรับการพยากรณ์ โดยการจำแนก (แบบจำลองแยกผลลัพธ์ได้ดีเพียงใด) และการสอบเทียบ (ความใกล้เคียงระหว่างความเสี่ยงที่พยากรณ์และที่สังเกตได้) เนื่องจากแบบจำลองที่สร้างและประเมินด้วยข้อมูลชุดเดียวกันมักจะดูดีกว่าที่เป็นจริง (การมองโลกในแง่ดีจากการสร้างแบบจำลองเกินพอดี) จึงจำเป็นต้องมีการตรวจสอบความถูกต้องภายใน (เช่น การสุ่มตัวอย่างซ้ำ) และโดยอุดมคติคือการตรวจสอบความถูกต้องภายนอกด้วยข้อมูลใหม่ เพื่อประเมินประสิทธิภาพที่แท้จริง
Clinical relevance
แบบจำลองการวินิจฉัยและการพยากรณ์โรคเป็นข้อมูลสำคัญในการสื่อสารความเสี่ยงทางคลินิก และการที่แบบจำลองดังกล่าวได้รับการเลือก ตรวจสอบ และตรวจสอบความถูกต้องอย่างเหมาะสมหรือไม่นั้นเป็นตัวกำหนดว่าการพยากรณ์ของแบบจำลองนั้นควรได้รับน้ำหนักมากน้อยเพียงใด การประเมินขั้นตอนเหล่านี้เป็นส่วนหนึ่งของการอ่านงานวิจัยแบบจำลองการพยากรณ์ บทความนี้อธิบายวิธีการและไม่ใช่พื้นฐานสำหรับการตัดสินใจวินิจฉัยหรือการรักษาเฉพาะบุคคล
Evidence & guidelines
แถลงการณ์ TRIPOD ให้มาตรฐานการรายงานสำหรับการศึกษาที่พัฒนาหรือตรวจสอบความถูกต้องของแบบจำลองการพยากรณ์แบบหลายตัวแปร และชุดงานวิจัยการพยากรณ์ของ BMJ กำหนดแนวปฏิบัติที่แนะนำสำหรับการสร้าง ตรวจสอบความถูกต้อง และรายงานแบบจำลองดังกล่าว ตำราของ Harrell ให้รายละเอียดกลยุทธ์การสร้างและตรวจสอบความถูกต้องของแบบจำลองอย่างครบถ้วน โดยเน้นการหลีกเลี่ยงการเลือกที่ขับเคลื่อนด้วยข้อมูลและการหาปริมาณการมองโลกในแง่ดี
History
เมื่อการถดถอยกลายเป็นหัวใจสำคัญของการวิจัยทางการแพทย์ ความกังวลก็เพิ่มขึ้นว่าการเลือกตัวพยากรณ์ที่ขับเคลื่อนด้วยข้อมูลและการสร้างแบบจำลองที่ไม่ผ่านการตรวจสอบทำให้เกิดแบบจำลองที่ดูน่าประทับใจในการพัฒนา แต่ล้มเหลวกับผู้ป่วยรายใหม่ ตั้งแต่ทศวรรษ 1990 เป็นต้นมา นักระเบียบวิธีวิจัยได้เน้นย้ำถึงการวินิจฉัย การตรวจสอบความถูกต้องภายในและภายนอก และความแตกต่างระหว่างการจำแนกและการสอบเทียบ สิ่งนี้ได้นำไปสู่แนวทางการรายงานที่เป็นเอกฉันท์ โดยเฉพาะอย่างยิ่งแถลงการณ์ TRIPOD สำหรับการศึกษาแบบจำลองการพยากรณ์
Debates
- ควรเลือกตัวพยากรณ์ด้วยการเลือกแบบขั้นตอนอัตโนมัติหรือไม่?
- การเลือกแบบขั้นตอนที่ขับเคลื่อนด้วยการทดสอบนัยสำคัญมักไม่เป็นที่แนะนำอย่างกว้างขวาง เนื่องจากทำให้เกิดภาวะสร้างแบบจำลองเกินพอดี สร้างชุดตัวพยากรณ์ที่ไม่เสถียร และให้ค่าประมาณที่มีอคติในเชิงบวก แบบจำลองที่กำหนดไว้ล่วงหน้าโดยอาศัยความรู้เฉพาะเรื่อง พร้อมการหดตัวและการตรวจสอบความถูกต้องที่เหมาะสม มักเป็นที่นิยมมากกว่า
- เหตุใดการตรวจสอบความถูกต้องภายนอกจึงถือว่าจำเป็นสำหรับแบบจำลองการพยากรณ์?
- แบบจำลองที่ประเมินจากข้อมูลการพัฒนาเท่านั้นมักจะดูดีกว่าที่เป็นจริงเนื่องจากการสร้างแบบจำลองเกินพอดี ประสิทธิภาพบนข้อมูลอิสระเป็นสิ่งจำเป็นในการตัดสินว่าการพยากรณ์สามารถนำไปใช้ได้ทั่วไปหรือไม่ ซึ่งเป็นเหตุผลว่าทำไมมาตรฐานการรายงานจึงเน้นย้ำถึงการตรวจสอบความถูกต้อง
Key figures
- Frank Harrell
- Douglas Altman
- Karel Moons
- Patrick Royston
- Gary Collins
Related topics
Seminal works
- harrell-2015
- collins-2015-tripod
Frequently asked questions
- ความแตกต่างระหว่างการจำแนกและการสอบเทียบคืออะไร?
- การจำแนกคือความสามารถของแบบจำลองในการแยกแยะบุคคลที่มีและไม่มีผลลัพธ์ ในขณะที่การสอบเทียบคือความใกล้เคียงระหว่างความน่าจะเป็นที่แบบจำลองพยากรณ์กับความถี่ที่สังเกตได้ แบบจำลองสามารถจำแนกได้ดีแต่สอบเทียบได้ไม่ดี ดังนั้นจึงควรประเมินทั้งสองอย่าง
- เหตุใดจึงไม่แนะนำให้เลือกตัวแปรแบบขั้นตอน?
- การเลือกตัวแปรแบบขั้นตอนอัตโนมัติอาศัยความสัมพันธ์โดยบังเอิญ สร้างชุดตัวพยากรณ์ที่ไม่เสถียรซึ่งแตกต่างกันไปในแต่ละตัวอย่าง และให้ค่าสัมประสิทธิ์และประสิทธิภาพที่มีอคติในเชิงบวก ซึ่งเป็นเหตุผลว่าทำไมแบบจำลองที่กำหนดไว้ล่วงหน้าพร้อมการตรวจสอบความถูกต้องที่เหมาะสมจึงมักเป็นที่นิยมมากกว่า