ฉันควรใช้ QDA แทน LDA เมื่อใด?

ควรใช้การวิเคราะห์จำแนกประเภทกำลังสองเมื่อกลุ่มต่างๆ ดูเหมือนจะมีโครงสร้างความแปรปรวนร่วมที่แตกต่างกันอย่างมาก และตัวอย่างมีขนาดใหญ่พอที่จะประมาณค่าเมทริกซ์ความแปรปรวนร่วมแยกกันสำหรับแต่ละกลุ่มได้อย่างน่าเชื่อถือ

การวิเคราะห์จำแนกประเภทกำลังสอง (Quadratic Discriminant Analysis)

การวิเคราะห์จำแนกประเภทกำลังสองจะจำแนกการสังเกตการณ์ภายใต้กลุ่มเกาส์เซียนหลายตัวแปรที่อนุญาตให้มีเมทริกซ์ความแปรปรวนร่วมที่แตกต่างกัน ซึ่งจะสร้างขอบเขตการตัดสินใจที่เป็นเส้นโค้ง

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การวิเคราะห์จำแนกประเภทกำลังสองเป็นวิธีการจำแนกประเภทที่จำลองแต่ละกลุ่มเป็นแบบปกติหลายตัวแปร (multivariate normal) โดยมีเมทริกซ์ความแปรปรวนร่วมของตนเอง และกำหนดการสังเกตการณ์โดยการเปรียบเทียบคะแนนจำแนกประเภทกำลังสองที่ได้จากความหนาแน่นเหล่านี้

Scope

หัวข้อนี้ครอบคลุมแบบจำลองการจำแนกประเภทเกาส์เซียนที่มีเมทริกซ์ความแปรปรวนร่วมเฉพาะกลุ่ม ฟังก์ชันจำแนกประเภทกำลังสองที่ได้ การแลกเปลี่ยนพารามิเตอร์ที่สัมพันธ์กับการวิเคราะห์จำแนกประเภทเชิงเส้น ความไวต่อตัวอย่างขนาดเล็ก และแนวทางที่ใช้การทำให้เป็นระเบียบ (regularized approaches) ที่เชื่อมโยงระหว่างกฎเชิงเส้นและกำลังสอง

Core questions

การผ่อนคลายสมมติฐานความแปรปรวนร่วมที่เท่ากันเปลี่ยนแปลงขอบเขตการตัดสินใจอย่างไร?
ความยืดหยุ่นที่เพิ่มขึ้นของความแปรปรวนร่วมที่แยกกันช่วยปรับปรุงการจำแนกประเภทเมื่อใด?
เหตุใดการวิเคราะห์จำแนกประเภทกำลังสองจึงมีแนวโน้มที่จะเกิดการเรียนรู้เกิน (overfitting) ในตัวอย่างขนาดเล็กมากกว่า?
การทำให้เป็นระเบียบ (regularization) สามารถทำให้การประมาณค่าความแปรปรวนร่วมมีเสถียรภาพได้อย่างไร?

Key theories

แบบจำลองเกาส์เซียนที่มีความแปรปรวนร่วมไม่เท่ากัน: เมื่อแต่ละกลุ่มเป็นแบบปกติหลายตัวแปรโดยมีเมทริกซ์ความแปรปรวนร่วมของตนเอง อัตราส่วนล็อกของความหนาแน่นจะเป็นกำลังสองในคุณลักษณะ ดังนั้นขอบเขตที่เหมาะสมที่สุดแบบเบย์ (Bayes-optimal boundary) ระหว่างกลุ่มจึงเป็นพื้นผิวกำลังสอง
การแลกเปลี่ยนระหว่างความเอนเอียงและความแปรปรวนกับการวิเคราะห์จำแนกประเภทเชิงเส้น: การวิเคราะห์จำแนกประเภทกำลังสองจะประมาณค่าความแปรปรวนร่วมแยกกันสำหรับแต่ละกลุ่ม ซึ่งช่วยลดความเอนเอียงเมื่อความแปรปรวนร่วมแตกต่างกันจริง แต่เพิ่มความแปรปรวน ดังนั้นจึงอาจมีประสิทธิภาพด้อยกว่ากฎเชิงเส้นเมื่อตัวอย่างมีขนาดเล็ก

Clinical relevance

การวิเคราะห์จำแนกประเภทกำลังสองถูกนำมาใช้เมื่อกลุ่มต่างๆ มีแนวโน้มที่จะแตกต่างกันในด้านการกระจายตัวและค่าเฉลี่ย ซึ่งให้ขอบเขตที่ยืดหยุ่นกว่ากฎเชิงเส้นในปัญหาการจำแนกประเภทในสาขาวิทยาศาสตร์และวิศวกรรมศาสตร์

History

การจำแนกประเภทกำลังสองเกิดขึ้นจากการขยายตามธรรมชาติของฟิชเชอร์ (Fisher) และการจำแนกประเภทเชิงเส้นแบบเกาส์เซียน เมื่อสมมติฐานของเมทริกซ์ความแปรปรวนร่วมเดียวกันถูกยกเลิก และต่อมาได้รับการเสริมด้วยการวิเคราะห์จำแนกประเภทแบบทำให้เป็นระเบียบ (regularized discriminant analysis) เพื่อจัดการกับข้อมูลที่มีมิติสูงและข้อมูลตัวอย่างขนาดเล็ก

Debates

ขอบเขตเชิงเส้นเทียบกับขอบเขตกําลังสอง: การอนุญาตให้มีความแปรปรวนร่วมเฉพาะกลุ่มสามารถจับขอบเขตที่เป็นเส้นโค้งได้อย่างแท้จริง แต่จะเพิ่มจำนวนพารามิเตอร์ที่ประมาณค่าได้หลายเท่า ดังนั้นการเลือกระหว่างการวิเคราะห์จำแนกประเภทเชิงเส้นและการวิเคราะห์จำแนกประเภทกำลังสองจึงเป็นการตัดสินใจเรื่องความเอนเอียง-ความแปรปรวนที่ไวต่อขนาดตัวอย่าง

Key figures

T. W. Anderson

Seminal works

anderson2003
hastie2009
johnson2007

Frequently asked questions

ฉันควรใช้ QDA แทน LDA เมื่อใด?: ควรใช้การวิเคราะห์จำแนกประเภทกำลังสองเมื่อกลุ่มต่างๆ ดูเหมือนจะมีโครงสร้างความแปรปรวนร่วมที่แตกต่างกันอย่างมาก และตัวอย่างมีขนาดใหญ่พอที่จะประมาณค่าเมทริกซ์ความแปรปรวนร่วมแยกกันสำหรับแต่ละกลุ่มได้อย่างน่าเชื่อถือ
การวิเคราะห์จำแนกประเภทแบบทำให้เป็นระเบียบ (regularized discriminant analysis) คืออะไร?: เป็นการประนีประนอมที่ลดขนาดความแปรปรวนร่วมของแต่ละกลุ่มเข้าหาค่าประมาณรวม โดยปรับพารามิเตอร์ที่เชื่อมโยงอย่างราบรื่นระหว่างการวิเคราะห์จำแนกประเภทกำลังสองและการวิเคราะห์จำแนกประเภทเชิงเส้น