การตรวจสอบข้าม (Cross-Validation) และการสุ่มตัวอย่างซ้ำ (Resampling)
การตรวจสอบข้ามและการสุ่มตัวอย่างซ้ำเป็นการประมาณค่าความผิดพลาดในการสรุปผลของแบบจำลอง โดยการแบ่งพาร์ติชันหรือสุ่มตัวอย่างข้อมูลที่มีอยู่ซ้ำๆ ทำให้ใช้ประโยชน์จากชุดข้อมูลที่มีจำกัดได้อย่างมีประสิทธิภาพ
Definition
การตรวจสอบข้ามเป็นการประมาณค่าความผิดพลาดในการสรุปผลโดยการแบ่งข้อมูลออกเป็นส่วนๆ (folds) ฝึกอบรมแบบจำลองด้วยบางส่วนและทดสอบด้วยส่วนที่ถูกกันไว้ และหาค่าเฉลี่ยจากการหมุนเวียน ส่วนการสุ่มตัวอย่างซ้ำในวงกว้างกว่า รวมถึง bootstrap คือการสุ่มเลือกชุดย่อยของข้อมูลซ้ำๆ เพื่อประมาณประสิทธิภาพและความแปรปรวนของกระบวนการเรียนรู้
Scope
หัวข้อนี้ครอบคลุมวิธีการใช้ข้อมูลซ้ำเพื่อประเมินแบบจำลอง: การแบ่งชุดข้อมูลเป็นชุดฝึกและชุดทดสอบ, การตรวจสอบข้ามแบบ k-fold และ leave-one-out, การตรวจสอบข้ามแบบ stratified และ nested สำหรับการปรับแต่ง, และ bootstrap สำหรับการประมาณค่าความไม่แน่นอน นอกจากนี้ยังกล่าวถึงอคติและความแปรปรวนของตัวประมาณเหล่านี้ และข้อผิดพลาด เช่น การรั่วไหลของข้อมูลที่อาจทำให้การประมาณค่าไม่ถูกต้อง
Core questions
- การตรวจสอบข้ามแบบ k-fold ประมาณค่าความผิดพลาดในการสรุปผลได้อย่างไร?
- ความสัมพันธ์ระหว่างอคติและความแปรปรวนของการนับจำนวนส่วน (fold counts) ที่แตกต่างกันคืออะไร?
- การตรวจสอบข้ามแบบ nested แยกการปรับแต่งและการประเมินออกจากกันได้อย่างไร?
- bootstrap ประมาณค่าความแปรปรวนของการประมาณค่าได้อย่างไร?
Key theories
- การตรวจสอบข้ามแบบ k-fold
- การแบ่งข้อมูลออกเป็น k ส่วน และสลับส่วนที่ถูกกันไว้สำหรับการทดสอบ ทำให้ได้ค่าประมาณของความผิดพลาดในการสรุปผลที่ใช้ข้อมูลทั้งหมดสำหรับการฝึกอบรมและการทดสอบ โดยแลกกับการคำนวณที่มากขึ้นเพื่อค่าประมาณที่น่าเชื่อถือยิ่งขึ้น
- การตรวจสอบข้ามแบบ nested
- เมื่อมีการปรับแต่งไฮเปอร์พารามิเตอร์ วงวนการตรวจสอบข้ามภายในจะเลือกไฮเปอร์พารามิเตอร์เหล่านั้น และวงวนภายนอกจะประเมินประสิทธิภาพ ซึ่งช่วยป้องกันอคติในแง่ดีที่เกิดขึ้นจากการปรับแต่งและประเมินด้วยข้อมูลชุดเดียวกัน
- Bootstrap
- การสุ่มตัวอย่างข้อมูลซ้ำโดยมีการใส่คืนหลายครั้ง จะประมาณการกระจายตัวอย่างของสถิติหรือประสิทธิภาพของแบบจำลอง โดยให้ช่วงความเชื่อมั่นและค่าประมาณความผิดพลาดโดยไม่มีข้อสมมติฐานเกี่ยวกับการกระจายตัว
Clinical relevance
การตรวจสอบข้ามเป็นเครื่องมือมาตรฐานสำหรับการประมาณประสิทธิภาพของแบบจำลองและการเลือกแบบจำลองเมื่อข้อมูลมีจำกัด และ bootstrap ถูกนำมาใช้อย่างแพร่หลายในการหาปริมาณความไม่แน่นอน การนำไปใช้ผิดวิธี เช่น การรั่วไหลของข้อมูลทดสอบเข้าสู่การฝึกอบรม หรือการปรับแต่งโดยใช้ข้อมูลประเมินผล เป็นสาเหตุที่พบบ่อยและร้ายแรงที่ทำให้ผลลัพธ์ที่ได้เกินจริง
History
การตรวจสอบข้ามได้รับการพัฒนาเป็นวิธีการที่เป็นทางการสำหรับการประมาณค่าความผิดพลาดในการทำนายโดย Stone และ Geisser ในทศวรรษ 1970 Efron ได้นำเสนอ bootstrap ในปี 1979 และวิธีการสุ่มตัวอย่างซ้ำเหล่านี้ได้กลายเป็นสิ่งที่ขาดไม่ได้สำหรับการประเมินและการประมาณค่าความไม่แน่นอนในสาขาวิชาสถิติและแมชชีนเลิร์นนิง
Key figures
- Mervyn Stone
- Bradley Efron
- Robert Tibshirani
Related topics
Seminal works
- hastie2009
- efron1993
- murphy2012
Frequently asked questions
- การตรวจสอบข้ามแบบ k-fold ทำอะไร?
- เป็นการแบ่งข้อมูลออกเป็น k ส่วนเท่าๆ กัน จากนั้นฝึกอบรมแบบจำลอง k ครั้ง โดยแต่ละครั้งจะกันส่วนที่แตกต่างกันไว้สำหรับการทดสอบและใช้ส่วนที่เหลือสำหรับการฝึกอบรม การหาค่าเฉลี่ยของผลการทดสอบทั้ง k ครั้งจะให้ค่าประมาณว่าแบบจำลองจะทำงานอย่างไรกับข้อมูลที่ไม่เคยเห็นมาก่อน
- เหตุใดบางครั้งจึงจำเป็นต้องมีการตรวจสอบข้ามแบบ nested?
- หากคุณปรับแต่งไฮเปอร์พารามิเตอร์และวัดประสิทธิภาพด้วยการตรวจสอบข้ามแบบเดียวกัน ค่าประมาณที่ได้จะมีความเอนเอียงในแง่ดี เนื่องจากตัวเลือกถูกปรับให้เข้ากับข้อมูลนั้น การตรวจสอบข้ามแบบ nested ใช้วงวนภายในสำหรับการปรับแต่งและวงวนภายนอกสำหรับการประเมิน ซึ่งช่วยแยกทั้งสองส่วนออกจากกัน