การตรวจสอบข้ามแบบ k-fold ทำอะไร?

เป็นการแบ่งข้อมูลออกเป็น k ส่วนเท่าๆ กัน จากนั้นฝึกอบรมแบบจำลอง k ครั้ง โดยแต่ละครั้งจะกันส่วนที่แตกต่างกันไว้สำหรับการทดสอบและใช้ส่วนที่เหลือสำหรับการฝึกอบรม การหาค่าเฉลี่ยของผลการทดสอบทั้ง k ครั้งจะให้ค่าประมาณว่าแบบจำลองจะทำงานอย่างไรกับข้อมูลที่ไม่เคยเห็นมาก่อน

เหตุใดบางครั้งจึงจำเป็นต้องมีการตรวจสอบข้ามแบบ nested?

หากคุณปรับแต่งไฮเปอร์พารามิเตอร์และวัดประสิทธิภาพด้วยการตรวจสอบข้ามแบบเดียวกัน ค่าประมาณที่ได้จะมีความเอนเอียงในแง่ดี เนื่องจากตัวเลือกถูกปรับให้เข้ากับข้อมูลนั้น การตรวจสอบข้ามแบบ nested ใช้วงวนภายในสำหรับการปรับแต่งและวงวนภายนอกสำหรับการประเมิน ซึ่งช่วยแยกทั้งสองส่วนออกจากกัน

การตรวจสอบข้าม (Cross-Validation) และการสุ่มตัวอย่างซ้ำ (Resampling)

การตรวจสอบข้ามและการสุ่มตัวอย่างซ้ำเป็นการประมาณค่าความผิดพลาดในการสรุปผลของแบบจำลอง โดยการแบ่งพาร์ติชันหรือสุ่มตัวอย่างข้อมูลที่มีอยู่ซ้ำๆ ทำให้ใช้ประโยชน์จากชุดข้อมูลที่มีจำกัดได้อย่างมีประสิทธิภาพ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การตรวจสอบข้ามเป็นการประมาณค่าความผิดพลาดในการสรุปผลโดยการแบ่งข้อมูลออกเป็นส่วนๆ (folds) ฝึกอบรมแบบจำลองด้วยบางส่วนและทดสอบด้วยส่วนที่ถูกกันไว้ และหาค่าเฉลี่ยจากการหมุนเวียน ส่วนการสุ่มตัวอย่างซ้ำในวงกว้างกว่า รวมถึง bootstrap คือการสุ่มเลือกชุดย่อยของข้อมูลซ้ำๆ เพื่อประมาณประสิทธิภาพและความแปรปรวนของกระบวนการเรียนรู้

Scope

หัวข้อนี้ครอบคลุมวิธีการใช้ข้อมูลซ้ำเพื่อประเมินแบบจำลอง: การแบ่งชุดข้อมูลเป็นชุดฝึกและชุดทดสอบ, การตรวจสอบข้ามแบบ k-fold และ leave-one-out, การตรวจสอบข้ามแบบ stratified และ nested สำหรับการปรับแต่ง, และ bootstrap สำหรับการประมาณค่าความไม่แน่นอน นอกจากนี้ยังกล่าวถึงอคติและความแปรปรวนของตัวประมาณเหล่านี้ และข้อผิดพลาด เช่น การรั่วไหลของข้อมูลที่อาจทำให้การประมาณค่าไม่ถูกต้อง

Core questions

การตรวจสอบข้ามแบบ k-fold ประมาณค่าความผิดพลาดในการสรุปผลได้อย่างไร?
ความสัมพันธ์ระหว่างอคติและความแปรปรวนของการนับจำนวนส่วน (fold counts) ที่แตกต่างกันคืออะไร?
การตรวจสอบข้ามแบบ nested แยกการปรับแต่งและการประเมินออกจากกันได้อย่างไร?
bootstrap ประมาณค่าความแปรปรวนของการประมาณค่าได้อย่างไร?

Key theories

การตรวจสอบข้ามแบบ k-fold: การแบ่งข้อมูลออกเป็น k ส่วน และสลับส่วนที่ถูกกันไว้สำหรับการทดสอบ ทำให้ได้ค่าประมาณของความผิดพลาดในการสรุปผลที่ใช้ข้อมูลทั้งหมดสำหรับการฝึกอบรมและการทดสอบ โดยแลกกับการคำนวณที่มากขึ้นเพื่อค่าประมาณที่น่าเชื่อถือยิ่งขึ้น
การตรวจสอบข้ามแบบ nested: เมื่อมีการปรับแต่งไฮเปอร์พารามิเตอร์ วงวนการตรวจสอบข้ามภายในจะเลือกไฮเปอร์พารามิเตอร์เหล่านั้น และวงวนภายนอกจะประเมินประสิทธิภาพ ซึ่งช่วยป้องกันอคติในแง่ดีที่เกิดขึ้นจากการปรับแต่งและประเมินด้วยข้อมูลชุดเดียวกัน
Bootstrap: การสุ่มตัวอย่างข้อมูลซ้ำโดยมีการใส่คืนหลายครั้ง จะประมาณการกระจายตัวอย่างของสถิติหรือประสิทธิภาพของแบบจำลอง โดยให้ช่วงความเชื่อมั่นและค่าประมาณความผิดพลาดโดยไม่มีข้อสมมติฐานเกี่ยวกับการกระจายตัว

Clinical relevance

การตรวจสอบข้ามเป็นเครื่องมือมาตรฐานสำหรับการประมาณประสิทธิภาพของแบบจำลองและการเลือกแบบจำลองเมื่อข้อมูลมีจำกัด และ bootstrap ถูกนำมาใช้อย่างแพร่หลายในการหาปริมาณความไม่แน่นอน การนำไปใช้ผิดวิธี เช่น การรั่วไหลของข้อมูลทดสอบเข้าสู่การฝึกอบรม หรือการปรับแต่งโดยใช้ข้อมูลประเมินผล เป็นสาเหตุที่พบบ่อยและร้ายแรงที่ทำให้ผลลัพธ์ที่ได้เกินจริง

History

การตรวจสอบข้ามได้รับการพัฒนาเป็นวิธีการที่เป็นทางการสำหรับการประมาณค่าความผิดพลาดในการทำนายโดย Stone และ Geisser ในทศวรรษ 1970 Efron ได้นำเสนอ bootstrap ในปี 1979 และวิธีการสุ่มตัวอย่างซ้ำเหล่านี้ได้กลายเป็นสิ่งที่ขาดไม่ได้สำหรับการประเมินและการประมาณค่าความไม่แน่นอนในสาขาวิชาสถิติและแมชชีนเลิร์นนิง

Key figures

Mervyn Stone
Bradley Efron
Robert Tibshirani

Seminal works

hastie2009
efron1993
murphy2012

Frequently asked questions

การตรวจสอบข้ามแบบ k-fold ทำอะไร?: เป็นการแบ่งข้อมูลออกเป็น k ส่วนเท่าๆ กัน จากนั้นฝึกอบรมแบบจำลอง k ครั้ง โดยแต่ละครั้งจะกันส่วนที่แตกต่างกันไว้สำหรับการทดสอบและใช้ส่วนที่เหลือสำหรับการฝึกอบรม การหาค่าเฉลี่ยของผลการทดสอบทั้ง k ครั้งจะให้ค่าประมาณว่าแบบจำลองจะทำงานอย่างไรกับข้อมูลที่ไม่เคยเห็นมาก่อน
เหตุใดบางครั้งจึงจำเป็นต้องมีการตรวจสอบข้ามแบบ nested?: หากคุณปรับแต่งไฮเปอร์พารามิเตอร์และวัดประสิทธิภาพด้วยการตรวจสอบข้ามแบบเดียวกัน ค่าประมาณที่ได้จะมีความเอนเอียงในแง่ดี เนื่องจากตัวเลือกถูกปรับให้เข้ากับข้อมูลนั้น การตรวจสอบข้ามแบบ nested ใช้วงวนภายในสำหรับการปรับแต่งและวงวนภายนอกสำหรับการประเมิน ซึ่งช่วยแยกทั้งสองส่วนออกจากกัน