การตรวจสอบความถูกต้องแบบไขว้
การตรวจสอบความถูกต้องแบบไขว้ (Cross-validation) ประมาณการว่าแบบจำลองจะสามารถทำนายข้อมูลใหม่ได้ดีเพียงใด โดยการปรับแบบจำลองซ้ำๆ กับส่วนหนึ่งของตัวอย่าง และวัดข้อผิดพลาดจากส่วนที่เหลือที่ไม่ได้นำมาใช้ในการปรับแบบจำลอง
Definition
การตรวจสอบความถูกต้องแบบไขว้เป็นกระบวนการสุ่มตัวอย่างซ้ำที่ประมาณค่าข้อผิดพลาดในการทำนายภายนอกตัวอย่าง (out-of-sample predictive error) ของแบบจำลอง โดยการแบ่งข้อมูลออกเป็นชุดย่อยที่เสริมกัน ปรับแบบจำลองกับชุดย่อยบางส่วน และประเมินข้อผิดพลาดในการทำนายกับชุดย่อยอื่นๆ จากนั้นจึงหาค่าเฉลี่ยจากส่วนแบ่งทั้งหมด
Scope
หัวข้อนี้ครอบคลุมถึงการตรวจสอบความถูกต้องแบบไขว้แบบ Leave-one-out และ k-fold, แผนการตรวจสอบความถูกต้องแบบ Validation-set และแบบ Repeated cross-validation, การนำไปใช้ในการเลือกแบบจำลองและการเลือกพารามิเตอร์ปรับแต่ง, การแลกเปลี่ยนระหว่างความเอนเอียงและความแปรปรวนในการประมาณค่าความผิดพลาด, และข้อผิดพลาดต่างๆ เช่น การรั่วไหลของข้อมูล และการมองโลกในแง่ดีของข้อผิดพลาดภายในตัวอย่าง (in-sample error) โดยเน้นย้ำถึงบทบาทในการประเมินผลแบบอิงการสุ่มตัวอย่างซ้ำ (resampling-based assessment)
Core questions
- การแยกข้อมูลออกและทำนายข้อมูลนั้นประมาณค่าข้อผิดพลาดในการสรุปผล (generalization error) ได้อย่างไร?
- การแลกเปลี่ยนใดที่ทำให้การตรวจสอบความถูกต้องแบบไขว้แบบ Leave-one-out แตกต่างจากการตรวจสอบความถูกต้องแบบไขว้แบบ k-fold?
- การตรวจสอบความถูกต้องแบบไขว้ถูกนำมาใช้ในการเลือกแบบจำลองและปรับแต่งไฮเปอร์พารามิเตอร์อย่างไร?
- แนวปฏิบัติใดบ้าง เช่น การหลีกเลี่ยงการรั่วไหลของข้อมูล ที่จำเป็นสำหรับการประมาณค่าที่ถูกต้อง?
Key concepts
- การแบ่งส่วนแบบ k-fold
- การตรวจสอบความถูกต้องแบบไขว้แบบ Leave-one-out
- ชุดข้อมูลตรวจสอบ (Validation set)
- ข้อผิดพลาดในการสรุปผล (Generalization error)
- การเลือกแบบจำลอง
- การรั่วไหลของข้อมูล
Key theories
- การประเมินแบบตรวจสอบความถูกต้องแบบไขว้
- การปรับแบบจำลองกับส่วนหนึ่งของข้อมูลและประเมินกับส่วนที่แยกออกจากกัน จะให้ค่าประมาณของข้อผิดพลาดในการทำนาย ซึ่งเมื่อหาค่าเฉลี่ยจากส่วนแบ่ง (folds) จะประมาณค่าข้อผิดพลาดของแบบจำลองกับข้อมูลในอนาคตที่เป็นอิสระ
- ความเอนเอียงและความแปรปรวนในการประมาณค่าความผิดพลาด
- การตรวจสอบความถูกต้องแบบไขว้แบบ Leave-one-out เกือบจะไม่มีความเอนเอียงแต่มีความแปรปรวนสูงได้ ในขณะที่ k-fold ที่มีค่า k ปานกลางจะแลกเปลี่ยนความเอนเอียงขึ้นเล็กน้อยกับความแปรปรวนที่ต่ำกว่า ซึ่งเป็นแนวทางในการเลือกใช้ห้าหรือสิบส่วนแบ่งที่พบบ่อย
Clinical relevance
การตรวจสอบความถูกต้องแบบไขว้เป็นเครื่องมือมาตรฐานสำหรับการเลือกระหว่างแบบจำลอง การปรับแต่งการทำให้เป็นมาตรฐาน (regularization) และไฮเปอร์พารามิเตอร์อื่นๆ รวมถึงการรายงานประสิทธิภาพการทำนายที่เที่ยงตรง ซึ่งเป็นหัวใจสำคัญของการเรียนรู้ทางสถิติและการเรียนรู้ของเครื่องในสาขาวิทยาศาสตร์ที่ขับเคลื่อนด้วยข้อมูล
History
แนวคิดการตรวจสอบความถูกต้องแบบไขว้ได้รับการกำหนดเป็นทางการโดย Stone และ Geisser ในปี 1974 เพื่อเป็นแนวทางที่มีหลักการในการประเมินและเลือกแบบจำลองการทำนาย การเติบโตอย่างรวดเร็วของการเรียนรู้ทางสถิติและการเรียนรู้ของเครื่องทำให้การตรวจสอบความถูกต้องแบบไขว้แบบ k-fold กลายเป็นค่าเริ่มต้นที่ใช้กันทั่วไปสำหรับการประเมินแบบจำลอง
Debates
- ความเอนเอียงและความแปรปรวนของการประมาณค่าแบบตรวจสอบความถูกต้องแบบไขว้
- ยังคงมีการถกเถียงกันว่าควรใช้จำนวนส่วนแบ่งเท่าใด และจะหาค่าประมาณความไม่แน่นอนที่ถูกต้องสำหรับข้อผิดพลาดที่ตรวจสอบความถูกต้องแบบไขว้ได้อย่างไร เนื่องจากส่วนแบ่งมีการทับซ้อนกันและค่าประมาณข้อผิดพลาดที่ได้มีความสัมพันธ์กัน
Key figures
- Mervyn Stone
- Seymour Geisser
- Trevor Hastie
- Robert Tibshirani
Related topics
Seminal works
- stone1974
- hastie2009
Frequently asked questions
- เหตุใดจึงไม่วัดข้อผิดพลาดจากข้อมูลที่ใช้ในการปรับแบบจำลองโดยตรง?
- ข้อผิดพลาดภายในตัวอย่าง (in-sample error) มีแนวโน้มที่จะมองโลกในแง่ดีเกินไป เนื่องจากแบบจำลองได้รับการปรับแต่งให้เข้ากับข้อมูลนั้นๆ จึงประเมินข้อผิดพลาดบนข้อมูลใหม่ต่ำกว่าความเป็นจริง การตรวจสอบความถูกต้องแบบไขว้จะประเมินการทำนายบนข้อมูลที่แบบจำลองไม่เคยเห็นในระหว่างการปรับแบบจำลอง ซึ่งให้ค่าประมาณที่เที่ยงตรงกว่า
- ควรใช้จำนวนส่วนแบ่งเท่าใด?
- การใช้ห้าหรือสิบส่วนแบ่งเป็นทางเลือกที่พบบ่อยซึ่งสร้างสมดุลระหว่างความเอนเอียงและความแปรปรวน และทำให้การคำนวณสามารถจัดการได้ การตรวจสอบความถูกต้องแบบไขว้แบบ Leave-one-out ใช้จำนวนส่วนแบ่งเท่ากับจำนวนการสังเกต ซึ่งให้ความเอนเอียงต่ำแต่มีความแปรปรวนสูงกว่าและมีค่าใช้จ่ายสูงกว่า