เหตุใดจึงไม่วัดประสิทธิภาพบนข้อมูลการฝึกอบรม?

แบบจำลองสามารถปรับให้เข้ากับข้อมูลการฝึกอบรมได้อย่างใกล้ชิด รวมถึงสัญญาณรบกวน ดังนั้นความคลาดเคลื่อนในการฝึกอบรมจึงประเมินความคลาดเคลื่อนบนข้อมูลใหม่ต่ำเกินไป การประเมินที่เที่ยงตรงต้องใช้ข้อมูลที่แบบจำลองไม่เคยเห็น ซึ่งได้มาจากการกันชุดข้อมูลทดสอบไว้หรือการตรวจสอบความถูกต้องแบบไขว้

ชุดข้อมูลตรวจสอบความถูกต้อง (validation set) และชุดข้อมูลทดสอบ (test set) แตกต่างกันอย่างไร?

ชุดข้อมูลตรวจสอบความถูกต้องใช้ในระหว่างการพัฒนาเพื่อปรับแต่งไฮเปอร์พารามิเตอร์และเลือกแบบจำลอง ในขณะที่ชุดข้อมูลทดสอบสงวนไว้สำหรับการประเมินขั้นสุดท้ายเพียงครั้งเดียว การแยกชุดข้อมูลทั้งสองออกจากกันจะช่วยป้องกันไม่ให้การเลือกที่ทำในระหว่างการปรับแต่งไปเพิ่มค่าประสิทธิภาพที่รายงาน

การประเมินและการเลือกแบบจำลอง

การประเมินและการเลือกแบบจำลองเป็นวิธีการในการประมาณว่าแบบจำลองจะสามารถสรุปผลได้ดีเพียงใด และใช้ในการเลือกระหว่างแบบจำลองและการตั้งค่าที่แข่งขันกัน

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การประเมินแบบจำลองคือการประมาณประสิทธิภาพที่คาดหวังของแบบจำลองบนข้อมูลที่ไม่เคยเห็น และการเลือกแบบจำลองคือการใช้การประมาณดังกล่าวเพื่อเลือกระหว่างแบบจำลอง คุณลักษณะ หรือการตั้งค่าไฮเปอร์พารามิเตอร์ ทั้งสองวิธีอาศัยการแยกข้อมูลที่ใช้สำหรับการปรับให้เข้ากันออกจากข้อมูลที่ใช้สำหรับการประเมินเพื่อให้ได้ค่าประมาณที่เที่ยงตรงของการสรุปผล

Scope

ขอบเขตนี้ครอบคลุมระเบียบวิธีเชิงประจักษ์ของการเรียนรู้ของเครื่อง: การประมาณความคลาดเคลื่อนในการสรุปผลโดยการกันข้อมูลไว้และการตรวจสอบความถูกต้องแบบไขว้ (cross-validation), ตัวชี้วัดประสิทธิภาพสำหรับการจำแนกและการถดถอย, การค้นหาไฮเปอร์พารามิเตอร์ที่ดี และการควบคุมความซับซ้อนของแบบจำลองผ่านการทำให้เป็นมาตรฐาน (regularization) โดยจะกล่าวถึงวิธีการหลีกเลี่ยงอคติเชิงบวกจากการประเมินข้อมูลการฝึกอบรม และวิธีการเปรียบเทียบแบบจำลองอย่างเป็นธรรม

Sub-topics

Core questions

จะประมาณความคลาดเคลื่อนในการสรุปผลได้อย่างไรโดยไม่มองโลกในแง่ดีเกินไป?
ตัวชี้วัดใดที่สามารถจับประสิทธิภาพสำหรับงานที่กำหนดได้อย่างถูกต้อง?
จะเลือกไฮเปอร์พารามิเตอร์ได้อย่างไรโดยไม่ทำให้การประเมินปนเปื้อน?
จะปรับความซับซ้อนของแบบจำลองให้เข้ากับข้อมูลที่มีได้อย่างไร?

Key theories

การประมาณความคลาดเคลื่อนที่เที่ยงตรง: การประมาณประสิทธิภาพบนข้อมูลที่ไม่ได้ใช้สำหรับการปรับให้เข้ากัน ผ่านชุดข้อมูลทดสอบที่กันไว้หรือการตรวจสอบความถูกต้องแบบไขว้ เป็นสิ่งจำเป็นเนื่องจากความคลาดเคลื่อนที่วัดได้บนข้อมูลการฝึกอบรมมีอคติเชิงบวก
การเลือกแบบจำลองและการควบคุมความซับซ้อน: การเลือกระหว่างแบบจำลองต้องสร้างสมดุลระหว่างความเหมาะสมกับความซับซ้อน โดยใช้การประมาณค่าจากการตรวจสอบความถูกต้องหรือเกณฑ์ข้อมูลเพื่อเลือกแบบจำลองที่คาดว่าจะสรุปผลได้ดีที่สุด
การแยกการเลือกและการประเมิน: ไฮเปอร์พารามิเตอร์ต้องได้รับการปรับแต่งบนข้อมูลการตรวจสอบความถูกต้องที่แยกต่างหากจากชุดข้อมูลทดสอบสุดท้าย เนื่องจากการใช้ข้อมูลทดสอบซ้ำสำหรับการเลือกจะทำให้ค่าประมาณประสิทธิภาพมองโลกในแง่ดีเกินไป

Clinical relevance

ระเบียบวิธีประเมินที่ถูกต้องเป็นสิ่งที่ทำให้ผลลัพธ์ของการเรียนรู้ของเครื่องน่าเชื่อถือ ความล้มเหลว เช่น การทดสอบบนข้อมูลการฝึกอบรม การปรับแต่งบนชุดข้อมูลทดสอบ หรือการเลือกตัวชี้วัดที่ทำให้เข้าใจผิด เป็นสาเหตุทั่วไปที่ทำให้แบบจำลองที่ดูยอดเยี่ยมในการพัฒนาแต่ล้มเหลวในการนำไปใช้งานจริง ทำให้ขอบเขตนี้มีความสำคัญต่อการปฏิบัติงานอย่างมีความรับผิดชอบ

History

การตรวจสอบความถูกต้องแบบไขว้ได้รับการกำหนดเป็นทางการโดย Stone และคณะในปี 1970 เพื่อเป็นวิธีการประมาณความคลาดเคลื่อนในการทำนาย และเกณฑ์ข้อมูล เช่น เกณฑ์ของ Akaike และเกณฑ์ของ Bayesian ได้ให้กฎการเลือกแบบจำลองที่มีพื้นฐานมาจากความน่าจะเป็น เมื่อการเรียนรู้ของเครื่องพัฒนาขึ้น โปรโตคอลการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบที่เข้มงวด รวมถึงตัวชี้วัดประสิทธิภาพที่หลากหลาย ได้กลายเป็นแนวปฏิบัติมาตรฐาน

Debates

การเลือกตัวชี้วัดที่เหมาะสม: ตัวเลขความแม่นยำเพียงอย่างเดียวอาจทำให้เข้าใจผิดในปัญหาที่ไม่สมดุลหรือปัญหาที่อ่อนไหวต่อต้นทุน ทำให้เกิดการถกเถียงว่าตัวชี้วัดใดที่สะท้อนวัตถุประสงค์ในโลกแห่งความเป็นจริงได้ดีที่สุด และจะรายงานประสิทธิภาพอย่างซื่อสัตย์ได้อย่างไร

Key figures

Trevor Hastie
Robert Tibshirani
Mervyn Stone

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

เหตุใดจึงไม่วัดประสิทธิภาพบนข้อมูลการฝึกอบรม?: แบบจำลองสามารถปรับให้เข้ากับข้อมูลการฝึกอบรมได้อย่างใกล้ชิด รวมถึงสัญญาณรบกวน ดังนั้นความคลาดเคลื่อนในการฝึกอบรมจึงประเมินความคลาดเคลื่อนบนข้อมูลใหม่ต่ำเกินไป การประเมินที่เที่ยงตรงต้องใช้ข้อมูลที่แบบจำลองไม่เคยเห็น ซึ่งได้มาจากการกันชุดข้อมูลทดสอบไว้หรือการตรวจสอบความถูกต้องแบบไขว้
ชุดข้อมูลตรวจสอบความถูกต้อง (validation set) และชุดข้อมูลทดสอบ (test set) แตกต่างกันอย่างไร?: ชุดข้อมูลตรวจสอบความถูกต้องใช้ในระหว่างการพัฒนาเพื่อปรับแต่งไฮเปอร์พารามิเตอร์และเลือกแบบจำลอง ในขณะที่ชุดข้อมูลทดสอบสงวนไว้สำหรับการประเมินขั้นสุดท้ายเพียงครั้งเดียว การแยกชุดข้อมูลทั้งสองออกจากกันจะช่วยป้องกันไม่ให้การเลือกที่ทำในระหว่างการปรับแต่งไปเพิ่มค่าประสิทธิภาพที่รายงาน