ความแตกต่างระหว่างการจำแนกและการสอบเทียบคืออะไร?

การจำแนกคือความสามารถของแบบจำลองในการแยกแยะบุคคลที่มีและไม่มีผลลัพธ์ ในขณะที่การสอบเทียบคือความใกล้เคียงระหว่างความน่าจะเป็นที่แบบจำลองพยากรณ์กับความถี่ที่สังเกตได้ แบบจำลองสามารถจำแนกได้ดีแต่สอบเทียบได้ไม่ดี ดังนั้นจึงควรประเมินทั้งสองอย่าง

เหตุใดจึงไม่แนะนำให้เลือกตัวแปรแบบขั้นตอน?

การเลือกตัวแปรแบบขั้นตอนอัตโนมัติอาศัยความสัมพันธ์โดยบังเอิญ สร้างชุดตัวพยากรณ์ที่ไม่เสถียรซึ่งแตกต่างกันไปในแต่ละตัวอย่าง และให้ค่าสัมประสิทธิ์และประสิทธิภาพที่มีอคติในเชิงบวก ซึ่งเป็นเหตุผลว่าทำไมแบบจำลองที่กำหนดไว้ล่วงหน้าพร้อมการตรวจสอบความถูกต้องที่เหมาะสมจึงมักเป็นที่นิยมมากกว่า

การเลือกและการวินิจฉัยแบบจำลอง

การเลือกและการวินิจฉัยแบบจำลองเป็นขั้นตอนที่ใช้ตัดสินว่าตัวพยากรณ์ใดที่แบบจำลองการถดถอยควรมี และแบบจำลองที่สร้างขึ้นนั้นน่าเชื่อถือหรือไม่ การเลือกจะกำหนดและจัดโครงสร้างตัวพยากรณ์ การวินิจฉัยจะตรวจสอบค่าความคลาดเคลื่อน (residuals) ข้อมูลที่มีอิทธิพล (influential observations) และข้อสมมติฐาน และการตรวจสอบความถูกต้อง (validation) จะตรวจสอบว่าแบบจำลองทำงานได้ดีกับข้อมูลที่ไม่ได้ใช้ในการสร้างแบบจำลองหรือไม่ ขั้นตอนเหล่านี้ร่วมกันช่วยป้องกันการเกิดภาวะสร้างแบบจำลองเกินพอดี (overfitting) และข้อสรุปที่ทำให้เข้าใจผิด

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การเลือกแบบจำลองคือกระบวนการตัดสินใจว่าจะรวมตัวพยากรณ์และรูปแบบเชิงฟังก์ชันใดบ้างในแบบจำลองการถดถอย การวินิจฉัยแบบจำลองคือขั้นตอน — การวิเคราะห์ค่าความคลาดเคลื่อน การวัดอิทธิพล การประเมินความเหมาะสมของแบบจำลองและการสอบเทียบ และการตรวจสอบความถูกต้อง — ที่ใช้ในการตัดสินว่าแบบจำลองที่สร้างขึ้นนั้นเป็นไปตามข้อสมมติฐานและทำงานได้อย่างเพียงพอหรือไม่

Scope

บทความนี้ครอบคลุมกลยุทธ์สำหรับการสร้างแบบจำลองการถดถอย (รวมถึงแนวทางแบบขั้นตอนและแบบจำลองเต็มรูปแบบ และอันตรายของการเลือกที่ขับเคลื่อนด้วยข้อมูล) การวินิจฉัยค่าความคลาดเคลื่อนและอิทธิพลสำหรับการตรวจสอบข้อสมมติฐาน มาตรการความเหมาะสมและประสิทธิภาพการพยากรณ์ เช่น การจำแนก (discrimination) และการสอบเทียบ (calibration) และการตรวจสอบความถูกต้องภายในและภายนอก บทความนี้ใช้ได้กับแบบจำลองเชิงเส้นและแบบจำลองโลจิสติก และเป็นหัวข้อทางระเบียบวิธีวิจัย ไม่ใช่คำแนะนำทางคลินิก

Core questions

เลือกตัวพยากรณ์อย่างไร และเหตุใดการเลือกแบบขั้นตอนอัตโนมัติจึงถูกวิพากษ์วิจารณ์?
ใช้ค่าความคลาดเคลื่อนและข้อมูลที่มีอิทธิพลในการตรวจสอบแบบจำลองอย่างไร?
ความแตกต่างระหว่างการจำแนกและการสอบเทียบคืออะไร?
เหตุใดแบบจำลองการพยากรณ์จึงต้องได้รับการตรวจสอบความถูกต้อง แทนที่จะตัดสินจากข้อมูลที่ใช้สร้างแบบจำลองเท่านั้น?
การสร้างแบบจำลองเกินพอดีและการมองโลกในแง่ดีบิดเบือนประสิทธิภาพที่ปรากฏได้อย่างไร?

Key concepts

การเลือกตัวแปร (ตัวพยากรณ์)
การเลือกแบบขั้นตอนและข้อผิดพลาด
การวิเคราะห์ค่าความคลาดเคลื่อน
ข้อมูลที่มีอิทธิพลและ leverage
ความเหมาะสมของแบบจำลอง
การจำแนกและการสอบเทียบ
การสร้างแบบจำลองเกินพอดีและการมองโลกในแง่ดี
การตรวจสอบความถูกต้องภายในและภายนอก

Mechanisms

การสร้างแบบจำลองการถดถอยเกี่ยวข้องกับการเลือกตัวพยากรณ์ที่จะนำเข้าในรูปแบบใด และจำเป็นต้องมีการปฏิสัมพันธ์หรือไม่ ขั้นตอนอัตโนมัติที่เพิ่มหรือลดตัวพยากรณ์ตามนัยสำคัญมักถูกวิพากษ์วิจารณ์อย่างกว้างขวาง เนื่องจากอาศัยโอกาส สร้างแบบจำลองที่ไม่เสถียร และให้ค่าประมาณที่มองโลกในแง่ดี จากนั้นการวินิจฉัยจะตรวจสอบแบบจำลองที่สร้างขึ้น: แผนภาพค่าความคลาดเคลื่อนจะเผยให้เห็นการเบี่ยงเบนจากความเป็นเชิงเส้นและความแปรปรวนที่ไม่คงที่ และการวัดอิทธิพลจะระบุข้อมูลที่ขับเคลื่อนความเหมาะสมอย่างไม่สมส่วน ประสิทธิภาพจะถูกตัดสินโดยความเหมาะสมของแบบจำลอง และสำหรับการพยากรณ์ โดยการจำแนก (แบบจำลองแยกผลลัพธ์ได้ดีเพียงใด) และการสอบเทียบ (ความใกล้เคียงระหว่างความเสี่ยงที่พยากรณ์และที่สังเกตได้) เนื่องจากแบบจำลองที่สร้างและประเมินด้วยข้อมูลชุดเดียวกันมักจะดูดีกว่าที่เป็นจริง (การมองโลกในแง่ดีจากการสร้างแบบจำลองเกินพอดี) จึงจำเป็นต้องมีการตรวจสอบความถูกต้องภายใน (เช่น การสุ่มตัวอย่างซ้ำ) และโดยอุดมคติคือการตรวจสอบความถูกต้องภายนอกด้วยข้อมูลใหม่ เพื่อประเมินประสิทธิภาพที่แท้จริง

Clinical relevance

แบบจำลองการวินิจฉัยและการพยากรณ์โรคเป็นข้อมูลสำคัญในการสื่อสารความเสี่ยงทางคลินิก และการที่แบบจำลองดังกล่าวได้รับการเลือก ตรวจสอบ และตรวจสอบความถูกต้องอย่างเหมาะสมหรือไม่นั้นเป็นตัวกำหนดว่าการพยากรณ์ของแบบจำลองนั้นควรได้รับน้ำหนักมากน้อยเพียงใด การประเมินขั้นตอนเหล่านี้เป็นส่วนหนึ่งของการอ่านงานวิจัยแบบจำลองการพยากรณ์ บทความนี้อธิบายวิธีการและไม่ใช่พื้นฐานสำหรับการตัดสินใจวินิจฉัยหรือการรักษาเฉพาะบุคคล

Evidence & guidelines

แถลงการณ์ TRIPOD ให้มาตรฐานการรายงานสำหรับการศึกษาที่พัฒนาหรือตรวจสอบความถูกต้องของแบบจำลองการพยากรณ์แบบหลายตัวแปร และชุดงานวิจัยการพยากรณ์ของ BMJ กำหนดแนวปฏิบัติที่แนะนำสำหรับการสร้าง ตรวจสอบความถูกต้อง และรายงานแบบจำลองดังกล่าว ตำราของ Harrell ให้รายละเอียดกลยุทธ์การสร้างและตรวจสอบความถูกต้องของแบบจำลองอย่างครบถ้วน โดยเน้นการหลีกเลี่ยงการเลือกที่ขับเคลื่อนด้วยข้อมูลและการหาปริมาณการมองโลกในแง่ดี

History

เมื่อการถดถอยกลายเป็นหัวใจสำคัญของการวิจัยทางการแพทย์ ความกังวลก็เพิ่มขึ้นว่าการเลือกตัวพยากรณ์ที่ขับเคลื่อนด้วยข้อมูลและการสร้างแบบจำลองที่ไม่ผ่านการตรวจสอบทำให้เกิดแบบจำลองที่ดูน่าประทับใจในการพัฒนา แต่ล้มเหลวกับผู้ป่วยรายใหม่ ตั้งแต่ทศวรรษ 1990 เป็นต้นมา นักระเบียบวิธีวิจัยได้เน้นย้ำถึงการวินิจฉัย การตรวจสอบความถูกต้องภายในและภายนอก และความแตกต่างระหว่างการจำแนกและการสอบเทียบ สิ่งนี้ได้นำไปสู่แนวทางการรายงานที่เป็นเอกฉันท์ โดยเฉพาะอย่างยิ่งแถลงการณ์ TRIPOD สำหรับการศึกษาแบบจำลองการพยากรณ์

Debates

ควรเลือกตัวพยากรณ์ด้วยการเลือกแบบขั้นตอนอัตโนมัติหรือไม่?: การเลือกแบบขั้นตอนที่ขับเคลื่อนด้วยการทดสอบนัยสำคัญมักไม่เป็นที่แนะนำอย่างกว้างขวาง เนื่องจากทำให้เกิดภาวะสร้างแบบจำลองเกินพอดี สร้างชุดตัวพยากรณ์ที่ไม่เสถียร และให้ค่าประมาณที่มีอคติในเชิงบวก แบบจำลองที่กำหนดไว้ล่วงหน้าโดยอาศัยความรู้เฉพาะเรื่อง พร้อมการหดตัวและการตรวจสอบความถูกต้องที่เหมาะสม มักเป็นที่นิยมมากกว่า
เหตุใดการตรวจสอบความถูกต้องภายนอกจึงถือว่าจำเป็นสำหรับแบบจำลองการพยากรณ์?: แบบจำลองที่ประเมินจากข้อมูลการพัฒนาเท่านั้นมักจะดูดีกว่าที่เป็นจริงเนื่องจากการสร้างแบบจำลองเกินพอดี ประสิทธิภาพบนข้อมูลอิสระเป็นสิ่งจำเป็นในการตัดสินว่าการพยากรณ์สามารถนำไปใช้ได้ทั่วไปหรือไม่ ซึ่งเป็นเหตุผลว่าทำไมมาตรฐานการรายงานจึงเน้นย้ำถึงการตรวจสอบความถูกต้อง

Key figures

Frank Harrell
Douglas Altman
Karel Moons
Patrick Royston
Gary Collins

Seminal works

harrell-2015
collins-2015-tripod

Frequently asked questions

ความแตกต่างระหว่างการจำแนกและการสอบเทียบคืออะไร?: การจำแนกคือความสามารถของแบบจำลองในการแยกแยะบุคคลที่มีและไม่มีผลลัพธ์ ในขณะที่การสอบเทียบคือความใกล้เคียงระหว่างความน่าจะเป็นที่แบบจำลองพยากรณ์กับความถี่ที่สังเกตได้ แบบจำลองสามารถจำแนกได้ดีแต่สอบเทียบได้ไม่ดี ดังนั้นจึงควรประเมินทั้งสองอย่าง
เหตุใดจึงไม่แนะนำให้เลือกตัวแปรแบบขั้นตอน?: การเลือกตัวแปรแบบขั้นตอนอัตโนมัติอาศัยความสัมพันธ์โดยบังเอิญ สร้างชุดตัวพยากรณ์ที่ไม่เสถียรซึ่งแตกต่างกันไปในแต่ละตัวอย่าง และให้ค่าสัมประสิทธิ์และประสิทธิภาพที่มีอคติในเชิงบวก ซึ่งเป็นเหตุผลว่าทำไมแบบจำลองที่กำหนดไว้ล่วงหน้าพร้อมการตรวจสอบความถูกต้องที่เหมาะสมจึงมักเป็นที่นิยมมากกว่า