การประเมินและการเลือกแบบจำลอง
การประเมินและการเลือกแบบจำลองเป็นวิธีการในการประมาณว่าแบบจำลองจะสามารถสรุปผลได้ดีเพียงใด และใช้ในการเลือกระหว่างแบบจำลองและการตั้งค่าที่แข่งขันกัน
Definition
การประเมินแบบจำลองคือการประมาณประสิทธิภาพที่คาดหวังของแบบจำลองบนข้อมูลที่ไม่เคยเห็น และการเลือกแบบจำลองคือการใช้การประมาณดังกล่าวเพื่อเลือกระหว่างแบบจำลอง คุณลักษณะ หรือการตั้งค่าไฮเปอร์พารามิเตอร์ ทั้งสองวิธีอาศัยการแยกข้อมูลที่ใช้สำหรับการปรับให้เข้ากันออกจากข้อมูลที่ใช้สำหรับการประเมินเพื่อให้ได้ค่าประมาณที่เที่ยงตรงของการสรุปผล
Scope
ขอบเขตนี้ครอบคลุมระเบียบวิธีเชิงประจักษ์ของการเรียนรู้ของเครื่อง: การประมาณความคลาดเคลื่อนในการสรุปผลโดยการกันข้อมูลไว้และการตรวจสอบความถูกต้องแบบไขว้ (cross-validation), ตัวชี้วัดประสิทธิภาพสำหรับการจำแนกและการถดถอย, การค้นหาไฮเปอร์พารามิเตอร์ที่ดี และการควบคุมความซับซ้อนของแบบจำลองผ่านการทำให้เป็นมาตรฐาน (regularization) โดยจะกล่าวถึงวิธีการหลีกเลี่ยงอคติเชิงบวกจากการประเมินข้อมูลการฝึกอบรม และวิธีการเปรียบเทียบแบบจำลองอย่างเป็นธรรม
Sub-topics
Core questions
- จะประมาณความคลาดเคลื่อนในการสรุปผลได้อย่างไรโดยไม่มองโลกในแง่ดีเกินไป?
- ตัวชี้วัดใดที่สามารถจับประสิทธิภาพสำหรับงานที่กำหนดได้อย่างถูกต้อง?
- จะเลือกไฮเปอร์พารามิเตอร์ได้อย่างไรโดยไม่ทำให้การประเมินปนเปื้อน?
- จะปรับความซับซ้อนของแบบจำลองให้เข้ากับข้อมูลที่มีได้อย่างไร?
Key theories
- การประมาณความคลาดเคลื่อนที่เที่ยงตรง
- การประมาณประสิทธิภาพบนข้อมูลที่ไม่ได้ใช้สำหรับการปรับให้เข้ากัน ผ่านชุดข้อมูลทดสอบที่กันไว้หรือการตรวจสอบความถูกต้องแบบไขว้ เป็นสิ่งจำเป็นเนื่องจากความคลาดเคลื่อนที่วัดได้บนข้อมูลการฝึกอบรมมีอคติเชิงบวก
- การเลือกแบบจำลองและการควบคุมความซับซ้อน
- การเลือกระหว่างแบบจำลองต้องสร้างสมดุลระหว่างความเหมาะสมกับความซับซ้อน โดยใช้การประมาณค่าจากการตรวจสอบความถูกต้องหรือเกณฑ์ข้อมูลเพื่อเลือกแบบจำลองที่คาดว่าจะสรุปผลได้ดีที่สุด
- การแยกการเลือกและการประเมิน
- ไฮเปอร์พารามิเตอร์ต้องได้รับการปรับแต่งบนข้อมูลการตรวจสอบความถูกต้องที่แยกต่างหากจากชุดข้อมูลทดสอบสุดท้าย เนื่องจากการใช้ข้อมูลทดสอบซ้ำสำหรับการเลือกจะทำให้ค่าประมาณประสิทธิภาพมองโลกในแง่ดีเกินไป
Clinical relevance
ระเบียบวิธีประเมินที่ถูกต้องเป็นสิ่งที่ทำให้ผลลัพธ์ของการเรียนรู้ของเครื่องน่าเชื่อถือ ความล้มเหลว เช่น การทดสอบบนข้อมูลการฝึกอบรม การปรับแต่งบนชุดข้อมูลทดสอบ หรือการเลือกตัวชี้วัดที่ทำให้เข้าใจผิด เป็นสาเหตุทั่วไปที่ทำให้แบบจำลองที่ดูยอดเยี่ยมในการพัฒนาแต่ล้มเหลวในการนำไปใช้งานจริง ทำให้ขอบเขตนี้มีความสำคัญต่อการปฏิบัติงานอย่างมีความรับผิดชอบ
History
การตรวจสอบความถูกต้องแบบไขว้ได้รับการกำหนดเป็นทางการโดย Stone และคณะในปี 1970 เพื่อเป็นวิธีการประมาณความคลาดเคลื่อนในการทำนาย และเกณฑ์ข้อมูล เช่น เกณฑ์ของ Akaike และเกณฑ์ของ Bayesian ได้ให้กฎการเลือกแบบจำลองที่มีพื้นฐานมาจากความน่าจะเป็น เมื่อการเรียนรู้ของเครื่องพัฒนาขึ้น โปรโตคอลการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบที่เข้มงวด รวมถึงตัวชี้วัดประสิทธิภาพที่หลากหลาย ได้กลายเป็นแนวปฏิบัติมาตรฐาน
Debates
- การเลือกตัวชี้วัดที่เหมาะสม
- ตัวเลขความแม่นยำเพียงอย่างเดียวอาจทำให้เข้าใจผิดในปัญหาที่ไม่สมดุลหรือปัญหาที่อ่อนไหวต่อต้นทุน ทำให้เกิดการถกเถียงว่าตัวชี้วัดใดที่สะท้อนวัตถุประสงค์ในโลกแห่งความเป็นจริงได้ดีที่สุด และจะรายงานประสิทธิภาพอย่างซื่อสัตย์ได้อย่างไร
Key figures
- Trevor Hastie
- Robert Tibshirani
- Mervyn Stone
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- เหตุใดจึงไม่วัดประสิทธิภาพบนข้อมูลการฝึกอบรม?
- แบบจำลองสามารถปรับให้เข้ากับข้อมูลการฝึกอบรมได้อย่างใกล้ชิด รวมถึงสัญญาณรบกวน ดังนั้นความคลาดเคลื่อนในการฝึกอบรมจึงประเมินความคลาดเคลื่อนบนข้อมูลใหม่ต่ำเกินไป การประเมินที่เที่ยงตรงต้องใช้ข้อมูลที่แบบจำลองไม่เคยเห็น ซึ่งได้มาจากการกันชุดข้อมูลทดสอบไว้หรือการตรวจสอบความถูกต้องแบบไขว้
- ชุดข้อมูลตรวจสอบความถูกต้อง (validation set) และชุดข้อมูลทดสอบ (test set) แตกต่างกันอย่างไร?
- ชุดข้อมูลตรวจสอบความถูกต้องใช้ในระหว่างการพัฒนาเพื่อปรับแต่งไฮเปอร์พารามิเตอร์และเลือกแบบจำลอง ในขณะที่ชุดข้อมูลทดสอบสงวนไว้สำหรับการประเมินขั้นสุดท้ายเพียงครั้งเดียว การแยกชุดข้อมูลทั้งสองออกจากกันจะช่วยป้องกันไม่ให้การเลือกที่ทำในระหว่างการปรับแต่งไปเพิ่มค่าประสิทธิภาพที่รายงาน