เกณฑ์สารสนเทศที่ต่ำกว่าหรือสูงกว่าดีกว่ากัน?

เกณฑ์เหล่านี้มักจะรายงานในมาตราส่วนความคลาดเคลื่อน (deviance scale) โดยค่าที่ต่ำกว่าบ่งชี้ถึงความแม่นยำเชิงพยากรณ์นอกตัวอย่างที่ประมาณค่าได้ดีกว่า; ความแตกต่างควรได้รับการพิจารณาเทียบกับค่าความคลาดเคลื่อนมาตรฐาน (standard errors) ของพวกมัน แทนที่จะถือว่าเป็นค่าที่แน่นอน

เกณฑ์สารสนเทศเชิงพยากรณ์

เกณฑ์สารสนเทศเชิงพยากรณ์ประมาณค่าความแม่นยำนอกตัวอย่างที่คาดการณ์ไว้ของแบบจำลองจากค่าเบื้องหลัง (posterior) ซึ่งเป็นทางเลือกที่เน้นการพยากรณ์แทน Bayes factors สำหรับการเปรียบเทียบแบบจำลอง

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

เกณฑ์สารสนเทศเชิงพยากรณ์คือค่าประมาณของความหนาแน่นเชิงพยากรณ์ลอการิทึมที่คาดการณ์ไว้ของแบบจำลองสำหรับข้อมูลใหม่ ซึ่งคำนวณจากตัวอย่างค่าเบื้องหลัง (posterior samples) และปรับแก้สำหรับการเกิดภาวะการเรียนรู้เกิน (overfitting) ด้วยการลงโทษพารามิเตอร์ที่มีประสิทธิภาพ โดยใช้เพื่อจัดอันดับแบบจำลองตามประสิทธิภาพการพยากรณ์

Scope

หัวข้อนี้ครอบคลุมเกณฑ์สารสนเทศความคลาดเคลื่อน (DIC), เกณฑ์สารสนเทศที่ใช้ได้กว้างขวาง (WAIC) และการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการด้วยการสุ่มตัวอย่างแบบ Pareto-smoothed importance-sampling (efficient Pareto-smoothed importance-sampling leave-one-out cross-validation) รวมถึงวิธีการที่แต่ละเกณฑ์ประมาณจำนวนพารามิเตอร์ที่มีประสิทธิภาพและประมาณความหนาแน่นเชิงพยากรณ์ลอการิทึมที่คาดการณ์ไว้

Core questions

DIC, WAIC และการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการประมาณความแม่นยำเชิงพยากรณ์ได้อย่างไร?
จำนวนพารามิเตอร์ที่มีประสิทธิภาพคืออะไร และคำนวณได้อย่างไร?
เหตุใด WAIC จึงถือว่าเป็น Bayesian ที่สมบูรณ์กว่า DIC?
การสุ่มตัวอย่างแบบ Pareto-smoothed importance sampling ทำให้การตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการมีประสิทธิภาพได้อย่างไร?

Key concepts

DIC
WAIC
การตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการ (leave-one-out cross-validation)
ความหนาแน่นเชิงพยากรณ์ลอการิทึมที่คาดการณ์ไว้ (expected log predictive density)
จำนวนพารามิเตอร์ที่มีประสิทธิภาพ (effective number of parameters)
การสุ่มตัวอย่างแบบ Pareto-smoothed importance sampling
การลงโทษภาวะการเรียนรู้เกิน (overfitting penalty)

Key theories

จำนวนพารามิเตอร์ที่มีประสิทธิภาพ: แต่ละเกณฑ์จะลงโทษความเหมาะสมด้วยค่าประมาณของความซับซ้อนของแบบจำลองที่ได้มาจากความแปรปรวนของค่าลอการิทึมความน่าจะเป็น (log-likelihood) ตลอดค่าเบื้องหลัง (posterior) เพื่อไม่ให้ความเหมาะสมในตัวอย่างที่ดีกว่าชนะโดยอัตโนมัติ
ความสมมูลกันของ WAIC และการตรวจสอบความถูกต้องแบบไขว้: Watanabe แสดงให้เห็นว่า WAIC มีความสมมูลกันแบบ asymptotic กับการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการของ Bayesian (Bayesian leave-one-out cross-validation) และทั้งสองมุ่งเป้าไปที่ความหนาแน่นเชิงพยากรณ์ลอการิทึมที่คาดการณ์ไว้นอกตัวอย่างโดยตรงโดยใช้ค่าเบื้องหลังทั้งหมด

Clinical relevance

เกณฑ์เชิงพยากรณ์ช่วยให้นักวิจัยสามารถเปรียบเทียบแบบจำลองที่เสนอสำหรับการพยากรณ์ในระบาดวิทยา นิเวศวิทยา และวิทยาศาสตร์กายภาพ โดยไม่จำเป็นต้องระบุค่าเบื้องต้น (priors) ที่ปรับแต่งอย่างระมัดระวังซึ่ง Bayes factors ต้องการ

History

Spiegelhalter และคณะเสนอ DIC ในปี 2002; Watanabe แนะนำ WAIC จากทฤษฎีการเรียนรู้แบบเอกฐาน (singular learning theory) ในปี 2010 ผลงานของ Vehtari, Gelman และ Gabry ในปี 2017 เกี่ยวกับการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการด้วยการสุ่มตัวอย่างแบบ Pareto-smoothed importance-sampling ทำให้การประเมินเชิงพยากรณ์ที่เสถียรและสามารถวินิจฉัยได้เป็นไปได้ในทางปฏิบัติ

Debates

ความน่าเชื่อถือของ DIC: DIC อาจทำงานได้ไม่ดีสำหรับแบบจำลองแบบลำดับชั้นและแบบจำลองที่ไม่ปกติ และขาดความไม่แปรเปลี่ยน ทำให้หลายคนนิยม WAIC หรือการตรวจสอบความถูกต้องแบบแยกออกหนึ่งรายการมากกว่า แม้ว่าจะไม่มีเกณฑ์ใดเกณฑ์หนึ่งที่ดีที่สุดในทุกกรณี

Key figures

David Spiegelhalter
Sumio Watanabe
Aki Vehtari
Andrew Gelman

Seminal works

watanabe2010
vehtari2017

Frequently asked questions

เกณฑ์สารสนเทศที่ต่ำกว่าหรือสูงกว่าดีกว่ากัน?: เกณฑ์เหล่านี้มักจะรายงานในมาตราส่วนความคลาดเคลื่อน (deviance scale) โดยค่าที่ต่ำกว่าบ่งชี้ถึงความแม่นยำเชิงพยากรณ์นอกตัวอย่างที่ประมาณค่าได้ดีกว่า; ความแตกต่างควรได้รับการพิจารณาเทียบกับค่าความคลาดเคลื่อนมาตรฐาน (standard errors) ของพวกมัน แทนที่จะถือว่าเป็นค่าที่แน่นอน