เกณฑ์สารสนเทศเชิงพยากรณ์
เกณฑ์สารสนเทศเชิงพยากรณ์ประมาณค่าความแม่นยำนอกตัวอย่างที่คาดการณ์ไว้ของแบบจำลองจากค่าเบื้องหลัง (posterior) ซึ่งเป็นทางเลือกที่เน้นการพยากรณ์แทน Bayes factors สำหรับการเปรียบเทียบแบบจำลอง
Definition
เกณฑ์สารสนเทศเชิงพยากรณ์คือค่าประมาณของความหนาแน่นเชิงพยากรณ์ลอการิทึมที่คาดการณ์ไว้ของแบบจำลองสำหรับข้อมูลใหม่ ซึ่งคำนวณจากตัวอย่างค่าเบื้องหลัง (posterior samples) และปรับแก้สำหรับการเกิดภาวะการเรียนรู้เกิน (overfitting) ด้วยการลงโทษพารามิเตอร์ที่มีประสิทธิภาพ โดยใช้เพื่อจัดอันดับแบบจำลองตามประสิทธิภาพการพยากรณ์
Scope
หัวข้อนี้ครอบคลุมเกณฑ์สารสนเทศความคลาดเคลื่อน (DIC), เกณฑ์สารสนเทศที่ใช้ได้กว้างขวาง (WAIC) และการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการด้วยการสุ่มตัวอย่างแบบ Pareto-smoothed importance-sampling (efficient Pareto-smoothed importance-sampling leave-one-out cross-validation) รวมถึงวิธีการที่แต่ละเกณฑ์ประมาณจำนวนพารามิเตอร์ที่มีประสิทธิภาพและประมาณความหนาแน่นเชิงพยากรณ์ลอการิทึมที่คาดการณ์ไว้
Core questions
- DIC, WAIC และการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการประมาณความแม่นยำเชิงพยากรณ์ได้อย่างไร?
- จำนวนพารามิเตอร์ที่มีประสิทธิภาพคืออะไร และคำนวณได้อย่างไร?
- เหตุใด WAIC จึงถือว่าเป็น Bayesian ที่สมบูรณ์กว่า DIC?
- การสุ่มตัวอย่างแบบ Pareto-smoothed importance sampling ทำให้การตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการมีประสิทธิภาพได้อย่างไร?
Key concepts
- DIC
- WAIC
- การตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการ (leave-one-out cross-validation)
- ความหนาแน่นเชิงพยากรณ์ลอการิทึมที่คาดการณ์ไว้ (expected log predictive density)
- จำนวนพารามิเตอร์ที่มีประสิทธิภาพ (effective number of parameters)
- การสุ่มตัวอย่างแบบ Pareto-smoothed importance sampling
- การลงโทษภาวะการเรียนรู้เกิน (overfitting penalty)
Key theories
- จำนวนพารามิเตอร์ที่มีประสิทธิภาพ
- แต่ละเกณฑ์จะลงโทษความเหมาะสมด้วยค่าประมาณของความซับซ้อนของแบบจำลองที่ได้มาจากความแปรปรวนของค่าลอการิทึมความน่าจะเป็น (log-likelihood) ตลอดค่าเบื้องหลัง (posterior) เพื่อไม่ให้ความเหมาะสมในตัวอย่างที่ดีกว่าชนะโดยอัตโนมัติ
- ความสมมูลกันของ WAIC และการตรวจสอบความถูกต้องแบบไขว้
- Watanabe แสดงให้เห็นว่า WAIC มีความสมมูลกันแบบ asymptotic กับการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการของ Bayesian (Bayesian leave-one-out cross-validation) และทั้งสองมุ่งเป้าไปที่ความหนาแน่นเชิงพยากรณ์ลอการิทึมที่คาดการณ์ไว้นอกตัวอย่างโดยตรงโดยใช้ค่าเบื้องหลังทั้งหมด
Clinical relevance
เกณฑ์เชิงพยากรณ์ช่วยให้นักวิจัยสามารถเปรียบเทียบแบบจำลองที่เสนอสำหรับการพยากรณ์ในระบาดวิทยา นิเวศวิทยา และวิทยาศาสตร์กายภาพ โดยไม่จำเป็นต้องระบุค่าเบื้องต้น (priors) ที่ปรับแต่งอย่างระมัดระวังซึ่ง Bayes factors ต้องการ
History
Spiegelhalter และคณะเสนอ DIC ในปี 2002; Watanabe แนะนำ WAIC จากทฤษฎีการเรียนรู้แบบเอกฐาน (singular learning theory) ในปี 2010 ผลงานของ Vehtari, Gelman และ Gabry ในปี 2017 เกี่ยวกับการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการด้วยการสุ่มตัวอย่างแบบ Pareto-smoothed importance-sampling ทำให้การประเมินเชิงพยากรณ์ที่เสถียรและสามารถวินิจฉัยได้เป็นไปได้ในทางปฏิบัติ
Debates
- ความน่าเชื่อถือของ DIC
- DIC อาจทำงานได้ไม่ดีสำหรับแบบจำลองแบบลำดับชั้นและแบบจำลองที่ไม่ปกติ และขาดความไม่แปรเปลี่ยน ทำให้หลายคนนิยม WAIC หรือการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการมากกว่า แม้ว่าจะไม่มีเกณฑ์ใดเกณฑ์หนึ่งที่ดีที่สุดในทุกกรณี
Key figures
- David Spiegelhalter
- Sumio Watanabe
- Aki Vehtari
- Andrew Gelman
Related topics
Seminal works
- watanabe2010
- vehtari2017
Frequently asked questions
- เกณฑ์สารสนเทศที่ต่ำกว่าหรือสูงกว่าดีกว่ากัน?
- เกณฑ์เหล่านี้มักจะรายงานในมาตราส่วนความคลาดเคลื่อน (deviance scale) โดยค่าที่ต่ำกว่าบ่งชี้ถึงความแม่นยำเชิงพยากรณ์นอกตัวอย่างที่ประมาณค่าได้ดีกว่า; ความแตกต่างควรได้รับการพิจารณาเทียบกับค่าความคลาดเคลื่อนมาตรฐาน (standard errors) ของพวกมัน แทนที่จะถือว่าเป็นค่าที่แน่นอน