ความเอนเอียง-ความแปรปรวน และการเรียนรู้เกิน (Overfitting)
การแลกเปลี่ยนระหว่างความเอนเอียงและความแปรปรวน (bias-variance trade-off) อธิบายว่าความซับซ้อนของแบบจำลองควบคุมข้อผิดพลาดในการทำนายได้อย่างไร โดยมีภาวะการเรียนรู้เกิน (overfitting) และภาวะการเรียนรู้ไม่พอดี (underfitting) เป็นสองรูปแบบความล้มเหลวที่ผู้เรียนรู้ต้องสร้างสมดุล
Definition
การแลกเปลี่ยนระหว่างความเอนเอียงและความแปรปรวน (bias-variance trade-off) คือหลักการที่ว่าข้อผิดพลาดในการทำนายที่คาดหวังสามารถแยกออกเป็นความเอนเอียง ซึ่งเป็นข้อผิดพลาดที่เกิดจากแบบจำลองที่ง่ายเกินไปที่จะจับความจริงได้ และความแปรปรวน ซึ่งเป็นข้อผิดพลาดที่เกิดจากแบบจำลองที่ไวต่อชุดข้อมูลการฝึกอบรมเฉพาะชุดมากเกินไป โดยความซับซ้อนของแบบจำลองจะทำให้ข้อผิดพลาดเคลื่อนที่ไปมาระหว่างสองสิ่งนี้
Scope
หัวข้อนี้ครอบคลุมการแยกองค์ประกอบของข้อผิดพลาดในการทำนายที่คาดหวังออกเป็นความเอนเอียง (bias) ความแปรปรวน (variance) และสัญญาณรบกวนที่ลดทอนไม่ได้ (irreducible noise) ความหมายของภาวะการเรียนรู้เกินและภาวะการเรียนรู้ไม่พอดี และบทบาทของการทำให้เป็นระเบียบ (regularization) ในการปรับสมดุล นอกจากนี้ยังครอบคลุมเส้นโค้งข้อผิดพลาดรูปตัว U แบบคลาสสิก และข้อสังเกตล่าสุดเกี่ยวกับการลดลงสองครั้ง (double descent) ในแบบจำลองที่มีพารามิเตอร์มากเกินไป
Core questions
- ข้อผิดพลาดที่คาดหวังแยกออกเป็นความเอนเอียง ความแปรปรวน และสัญญาณรบกวนได้อย่างไร?
- อะไรคือลักษณะเฉพาะของภาวะการเรียนรู้เกินเทียบกับภาวะการเรียนรู้ไม่พอดี?
- การทำให้เป็นระเบียบปรับสมดุลความเอนเอียง-ความแปรปรวนได้อย่างไร?
- เหตุใดแบบจำลองที่มีความยืดหยุ่นสูงบางครั้งจึงสามารถสรุปผลได้ดีแม้จะมีขีดความสามารถสูง?
Key theories
- การแยกองค์ประกอบความเอนเอียง-ความแปรปรวน
- สำหรับการสูญเสียแบบกำลังสอง (squared-error loss) ข้อผิดพลาดที่คาดหวังจะแยกออกเป็นความเอนเอียงกำลังสอง (squared bias) ความแปรปรวน และสัญญาณรบกวนที่ลดทอนไม่ได้ ทำให้เห็นชัดเจนว่าสมมติฐานที่ทำให้ง่ายขึ้นช่วยลดความแปรปรวนโดยแลกมาด้วยความเอนเอียง และในทางกลับกัน
- ภาวะการเรียนรู้เกินและการทำให้เป็นระเบียบ
- ภาวะการเรียนรู้เกินเกิดขึ้นเมื่อแบบจำลองจับสัญญาณรบกวนแทนที่จะเป็นสัญญาณ การทำให้เป็นระเบียบจะลงโทษความซับซ้อนเพื่อลดความแปรปรวน โดยแลกกับการเพิ่มขึ้นเล็กน้อยของความเอนเอียงเพื่อลดความแปรปรวนที่มากขึ้น
- นอกเหนือจากการแลกเปลี่ยนแบบคลาสสิก
- ในสภาวะที่มีพารามิเตอร์มากเกินไป ข้อผิดพลาดอาจลดลงอีกครั้งเมื่อผ่านจุดการประมาณค่าในช่วง (interpolation point) ซึ่งเป็นปรากฏการณ์การลดลงสองครั้ง ทำให้ภาพคลาสสิกของเส้นโค้งรูปตัว U เพียงเส้นเดียวซับซ้อนขึ้น
Clinical relevance
การแลกเปลี่ยนระหว่างความเอนเอียงและความแปรปรวนเป็นหัวใจสำคัญในทางปฏิบัติของการปรับแบบจำลอง โดยเป็นแนวทางในการเลือกขนาดของแบบจำลอง ความเข้มข้นของการทำให้เป็นระเบียบ และจำนวนคุณลักษณะเพื่อลดข้อผิดพลาดในข้อมูลใหม่ การวินิจฉัยว่าแบบจำลองมีการเรียนรู้ไม่พอดีหรือเรียนรู้เกินเป็นขั้นตอนปกติและจำเป็นในการเรียนรู้ของเครื่องประยุกต์
History
การแยกองค์ประกอบความเอนเอียง-ความแปรปรวนถูกนำเสนอสำหรับโครงข่ายประสาทเทียมและการเรียนรู้โดย Geman และคณะประมาณปี 1992 และกลายเป็นมุมมองมาตรฐานในสถิติและการเรียนรู้ของเครื่อง ทฤษฎีการทำให้เป็นระเบียบได้กำหนดรูปแบบการควบคุมความซับซ้อน และการค้นพบการลดลงสองครั้งล่าสุดได้กระตุ้นให้มีการพิจารณาการแลกเปลี่ยนนี้ใหม่สำหรับแบบจำลองที่มีพารามิเตอร์มากเกินไปในปัจจุบัน
Key figures
- Stuart Geman
- Trevor Hastie
- Christopher Bishop
Related topics
Seminal works
- hastie2009
- bishop2006
- geman1992
Frequently asked questions
- ความแตกต่างระหว่างภาวะการเรียนรู้เกินและภาวะการเรียนรู้ไม่พอดีคืออะไร?
- ภาวะการเรียนรู้ไม่พอดีคือเมื่อแบบจำลองง่ายเกินไปที่จะจับรูปแบบพื้นฐาน ทำให้เกิดความเอนเอียงสูงและประสิทธิภาพไม่ดีแม้แต่กับข้อมูลการฝึกอบรม ภาวะการเรียนรู้เกินคือเมื่อแบบจำลองมีความยืดหยุ่นมากจนเข้ากับสัญญาณรบกวนในข้อมูลการฝึกอบรม ทำให้เกิดความแปรปรวนสูงและประสิทธิภาพไม่ดีกับข้อมูลใหม่
- การทำให้เป็นระเบียบช่วยได้อย่างไร?
- การทำให้เป็นระเบียบจะเพิ่มบทลงโทษต่อความซับซ้อนของแบบจำลอง ซึ่งเป็นการยับยั้งพารามิเตอร์ที่มากเกินไปหรือมีจำนวนมาก สิ่งนี้ช่วยลดความแปรปรวน โดยปกติแล้วจะแลกมาด้วยการเพิ่มขึ้นเล็กน้อยของความเอนเอียง และดังนั้นจึงลดข้อผิดพลาดทั้งหมดในข้อมูลที่ไม่เคยเห็นเมื่อความซับซ้อนสูงเกินไป