การเรียนรู้แบบมีผู้สอน
การเรียนรู้แบบมีผู้สอนสร้างแบบจำลองเชิงพยากรณ์จากตัวอย่างที่จับคู่กับค่าเป้าหมายที่ทราบ โดยเรียนรู้การจับคู่จากอินพุตไปยังเอาต์พุตที่สามารถนำไปใช้กับกรณีที่ไม่เคยเห็นมาก่อนได้
Definition
การเรียนรู้แบบมีผู้สอนคืองานของการอนุมานฟังก์ชันจากชุดข้อมูลการฝึกอบรมของคู่ข้อมูลนำเข้า-ข้อมูลส่งออก เพื่อให้ฟังก์ชันสามารถทำนายข้อมูลส่งออกสำหรับข้อมูลนำเข้าใหม่ได้ โดยอัลกอริทึมการเรียนรู้จะเลือกฟังก์ชันเพื่อลดการวัดข้อผิดพลาดในข้อมูลการฝึกอบรม ในขณะที่ควบคุมความซับซ้อนเพื่อหลีกเลี่ยงการเกิดภาวะเรียนรู้เกิน (overfitting)
Scope
ขอบเขตนี้ครอบคลุมการเรียนรู้จากข้อมูลที่มีป้ายกำกับ รวมถึงการจำแนกประเภทและการถดถอย การกำหนดรูปแบบการเรียนรู้เป็นการลดความเสี่ยงเชิงประจักษ์ด้วยฟังก์ชันการสูญเสีย การแลกเปลี่ยนระหว่างความเอนเอียงและความแปรปรวน การสรุปผลไปยังอินพุตใหม่ และตระกูลแบบจำลองหลัก ได้แก่ แบบจำลองเชิงเส้นและแบบจำลองเชิงเส้นทั่วไป วิธีการเพื่อนบ้านใกล้ที่สุดและเคอร์เนล เครื่องจักรเวกเตอร์สนับสนุน ต้นไม้ตัดสินใจ และวิธีการรวมกลุ่ม เช่น แบกกิงและบูสติง
Sub-topics
Core questions
- จะปรับแบบจำลองให้เข้ากับตัวอย่างที่มีป้ายกำกับได้อย่างไร เพื่อให้สามารถทำนายข้อมูลที่ไม่เคยเห็นมาก่อนได้ดี?
- ฟังก์ชันการสูญเสียและการวัดความเสี่ยงใดที่ทำให้เป้าหมายของการทำนายที่แม่นยำเป็นทางการ?
- ความซับซ้อนของแบบจำลองแลกเปลี่ยนความเอนเอียงกับความแปรปรวนอย่างไร?
- ตระกูลแบบจำลองใดที่เหมาะสมสำหรับปัญหาการจำแนกประเภทเทียบกับปัญหาการถดถอย?
Key theories
- การลดความเสี่ยงเชิงประจักษ์
- การเรียนรู้ถูกกำหนดให้เป็นการเลือกฟังก์ชันที่ลดการสูญเสียเฉลี่ยในตัวอย่างการฝึกอบรม เพื่อใช้แทนการลดการสูญเสียที่คาดหวังในการกระจายตัวของข้อมูลพื้นฐาน โดยมีการเพิ่มการทำให้เป็นระเบียบ (regularization) เพื่อควบคุมช่องว่างระหว่างทั้งสอง
- การแยกส่วนความเอนเอียง-ความแปรปรวน
- ข้อผิดพลาดในการทำนายที่คาดหวังสามารถแยกออกเป็นความเอนเอียงกำลังสอง ความแปรปรวน และสัญญาณรบกวนที่ลดทอนไม่ได้ ซึ่งอธิบายว่าทำไมแบบจำลองที่ง่ายเกินไปจึงเกิดภาวะเรียนรู้ต่ำ (underfit) และแบบจำลองที่ยืดหยุ่นเกินไปจึงเกิดภาวะเรียนรู้เกิน (overfit) และเป็นแรงจูงใจในการควบคุมความซับซ้อน
- การเรียนรู้แบบมีระยะขอบและการเรียนรู้แบบรวมกลุ่ม
- การเพิ่มระยะขอบแยก (separating margin) ให้สูงสุด (เครื่องจักรเวกเตอร์สนับสนุน) และการรวมผู้เรียนรู้ที่อ่อนแอหรือสุ่มจำนวนมาก (แบกกิง, บูสติง, ป่าสุ่ม) ทำให้ได้ตัวจำแนกประเภทที่มักจะสรุปผลได้ดีกว่าแบบจำลองเดี่ยวที่ไม่มีการทำให้เป็นระเบียบ
Clinical relevance
การเรียนรู้แบบมีผู้สอนเป็นพื้นฐานของระบบพยากรณ์ส่วนใหญ่ที่ใช้งานอยู่ ตั้งแต่ตัวกรองสแปม การให้คะแนนเครดิต และการสนับสนุนการวินิจฉัยทางการแพทย์ ไปจนถึงการรู้จำภาพและเสียง ความท้าทายหลักคือการสรุปผล (generalization) เพื่อให้มั่นใจว่าแบบจำลองที่เหมาะสมกับตัวอย่างในอดีตจะยังคงทำงานได้ดีกับข้อมูลในอนาคต ซึ่งเป็นเหตุผลว่าทำไมวิธีการประมาณค่าและควบคุมข้อผิดพลาดในการสรุปผลจึงมีความสำคัญต่อสาขาวิชานี้
History
การเรียนรู้แบบมีผู้สอนพัฒนามาจากสถิติการถดถอยและการวิเคราะห์จำแนกประเภท และจากงานการรู้จำรูปแบบในยุคแรกเริ่ม เช่น เพอร์เซปตรอน (perceptron) และกฎเพื่อนบ้านใกล้ที่สุด (nearest-neighbor rules) ในทศวรรษ 1990 ได้มีการนำเสนอเครื่องจักรเวกเตอร์สนับสนุน (support vector machines) และทฤษฎีการเรียนรู้เชิงสถิติที่เข้มงวด ในทศวรรษเดียวกันและทศวรรษถัดมา กลุ่มต้นไม้ตัดสินใจ (decision-tree ensembles) เช่น แบกกิง (bagging) บูสติง (boosting) และป่าสุ่ม (random forests) ได้กลายเป็นเครื่องมือที่โดดเด่นสำหรับการพยากรณ์ข้อมูลแบบตาราง
Debates
- ความสามารถในการตีความเทียบกับความแม่นยำในการทำนาย
- แบบจำลองที่มีความแม่นยำสูง เช่น กลุ่มแบบจำลองขนาดใหญ่และเครือข่ายเชิงลึก มักจะมีความทึบแสง ทำให้เกิดการถกเถียงว่าเมื่อใดควรเลือกใช้แบบจำลองที่ตีความได้ โดยเฉพาะอย่างยิ่งในการตัดสินใจที่มีความสำคัญสูง
Key figures
- Vladimir Vapnik
- Leo Breiman
- Trevor Hastie
- Robert Tibshirani
Related topics
Seminal works
- bishop2006
- hastie2009
- cortes1995
- breiman2001
Frequently asked questions
- อะไรคือความแตกต่างระหว่างการเรียนรู้แบบมีผู้สอนกับการเรียนรู้แบบไม่มีผู้สอน?
- การเรียนรู้แบบมีผู้สอนใช้ตัวอย่างที่มีป้ายกำกับหรือค่าเป้าหมายที่ทราบ และเรียนรู้ที่จะทำนายเป้าหมายเหล่านั้นสำหรับอินพุตใหม่ การเรียนรู้แบบไม่มีผู้สอนทำงานกับข้อมูลที่ไม่มีป้ายกำกับ และจะค้นพบโครงสร้าง เช่น กลุ่มข้อมูล (clusters) หรือการแสดงผลในมิติที่ต่ำกว่าแทน
- เหตุใดการสรุปผลจึงเป็นข้อกังวลหลัก?
- แบบจำลองสามารถปรับให้เข้ากับข้อมูลการฝึกอบรมได้อย่างสมบูรณ์แบบเสมอ แต่การทำเช่นนั้นอาจจับสัญญาณรบกวนมากกว่าสัญญาณจริง เป้าหมายที่แท้จริงคือความแม่นยำของข้อมูลที่ไม่เคยเห็นมาก่อน ดังนั้นวิธีการประมาณค่าและควบคุมช่องว่างระหว่างข้อผิดพลาดในการฝึกอบรมและการทดสอบ เช่น การทำให้เป็นระเบียบ (regularization) และการตรวจสอบข้าม (cross-validation) จึงเป็นสิ่งจำเป็น