การวิเคราะห์จำแนกประเภทกำลังสอง (Quadratic Discriminant Analysis)
การวิเคราะห์จำแนกประเภทกำลังสองจะจำแนกการสังเกตการณ์ภายใต้กลุ่มเกาส์เซียนหลายตัวแปรที่อนุญาตให้มีเมทริกซ์ความแปรปรวนร่วมที่แตกต่างกัน ซึ่งจะสร้างขอบเขตการตัดสินใจที่เป็นเส้นโค้ง
Definition
การวิเคราะห์จำแนกประเภทกำลังสองเป็นวิธีการจำแนกประเภทที่จำลองแต่ละกลุ่มเป็นแบบปกติหลายตัวแปร (multivariate normal) โดยมีเมทริกซ์ความแปรปรวนร่วมของตนเอง และกำหนดการสังเกตการณ์โดยการเปรียบเทียบคะแนนจำแนกประเภทกำลังสองที่ได้จากความหนาแน่นเหล่านี้
Scope
หัวข้อนี้ครอบคลุมแบบจำลองการจำแนกประเภทเกาส์เซียนที่มีเมทริกซ์ความแปรปรวนร่วมเฉพาะกลุ่ม ฟังก์ชันจำแนกประเภทกำลังสองที่ได้ การแลกเปลี่ยนพารามิเตอร์ที่สัมพันธ์กับการวิเคราะห์จำแนกประเภทเชิงเส้น ความไวต่อตัวอย่างขนาดเล็ก และแนวทางที่ใช้การทำให้เป็นระเบียบ (regularized approaches) ที่เชื่อมโยงระหว่างกฎเชิงเส้นและกำลังสอง
Core questions
- การผ่อนคลายสมมติฐานความแปรปรวนร่วมที่เท่ากันเปลี่ยนแปลงขอบเขตการตัดสินใจอย่างไร?
- ความยืดหยุ่นที่เพิ่มขึ้นของความแปรปรวนร่วมที่แยกกันช่วยปรับปรุงการจำแนกประเภทเมื่อใด?
- เหตุใดการวิเคราะห์จำแนกประเภทกำลังสองจึงมีแนวโน้มที่จะเกิดการเรียนรู้เกิน (overfitting) ในตัวอย่างขนาดเล็กมากกว่า?
- การทำให้เป็นระเบียบ (regularization) สามารถทำให้การประมาณค่าความแปรปรวนร่วมมีเสถียรภาพได้อย่างไร?
Key theories
- แบบจำลองเกาส์เซียนที่มีความแปรปรวนร่วมไม่เท่ากัน
- เมื่อแต่ละกลุ่มเป็นแบบปกติหลายตัวแปรโดยมีเมทริกซ์ความแปรปรวนร่วมของตนเอง อัตราส่วนล็อกของความหนาแน่นจะเป็นกำลังสองในคุณลักษณะ ดังนั้นขอบเขตที่เหมาะสมที่สุดแบบเบย์ (Bayes-optimal boundary) ระหว่างกลุ่มจึงเป็นพื้นผิวกำลังสอง
- การแลกเปลี่ยนระหว่างความเอนเอียงและความแปรปรวนกับการวิเคราะห์จำแนกประเภทเชิงเส้น
- การวิเคราะห์จำแนกประเภทกำลังสองจะประมาณค่าความแปรปรวนร่วมแยกกันสำหรับแต่ละกลุ่ม ซึ่งช่วยลดความเอนเอียงเมื่อความแปรปรวนร่วมแตกต่างกันจริง แต่เพิ่มความแปรปรวน ดังนั้นจึงอาจมีประสิทธิภาพด้อยกว่ากฎเชิงเส้นเมื่อตัวอย่างมีขนาดเล็ก
Clinical relevance
การวิเคราะห์จำแนกประเภทกำลังสองถูกนำมาใช้เมื่อกลุ่มต่างๆ มีแนวโน้มที่จะแตกต่างกันในด้านการกระจายตัวและค่าเฉลี่ย ซึ่งให้ขอบเขตที่ยืดหยุ่นกว่ากฎเชิงเส้นในปัญหาการจำแนกประเภทในสาขาวิทยาศาสตร์และวิศวกรรมศาสตร์
History
การจำแนกประเภทกำลังสองเกิดขึ้นจากการขยายตามธรรมชาติของฟิชเชอร์ (Fisher) และการจำแนกประเภทเชิงเส้นแบบเกาส์เซียน เมื่อสมมติฐานของเมทริกซ์ความแปรปรวนร่วมเดียวกันถูกยกเลิก และต่อมาได้รับการเสริมด้วยการวิเคราะห์จำแนกประเภทแบบทำให้เป็นระเบียบ (regularized discriminant analysis) เพื่อจัดการกับข้อมูลที่มีมิติสูงและข้อมูลตัวอย่างขนาดเล็ก
Debates
- ขอบเขตเชิงเส้นเทียบกับขอบเขตกําลังสอง
- การอนุญาตให้มีความแปรปรวนร่วมเฉพาะกลุ่มสามารถจับขอบเขตที่เป็นเส้นโค้งได้อย่างแท้จริง แต่จะเพิ่มจำนวนพารามิเตอร์ที่ประมาณค่าได้หลายเท่า ดังนั้นการเลือกระหว่างการวิเคราะห์จำแนกประเภทเชิงเส้นและการวิเคราะห์จำแนกประเภทกำลังสองจึงเป็นการตัดสินใจเรื่องความเอนเอียง-ความแปรปรวนที่ไวต่อขนาดตัวอย่าง
Key figures
- T. W. Anderson
Related topics
Seminal works
- anderson2003
- hastie2009
- johnson2007
Frequently asked questions
- ฉันควรใช้ QDA แทน LDA เมื่อใด?
- ควรใช้การวิเคราะห์จำแนกประเภทกำลังสองเมื่อกลุ่มต่างๆ ดูเหมือนจะมีโครงสร้างความแปรปรวนร่วมที่แตกต่างกันอย่างมาก และตัวอย่างมีขนาดใหญ่พอที่จะประมาณค่าเมทริกซ์ความแปรปรวนร่วมแยกกันสำหรับแต่ละกลุ่มได้อย่างน่าเชื่อถือ
- การวิเคราะห์จำแนกประเภทแบบทำให้เป็นระเบียบ (regularized discriminant analysis) คืออะไร?
- เป็นการประนีประนอมที่ลดขนาดความแปรปรวนร่วมของแต่ละกลุ่มเข้าหาค่าประมาณรวม โดยปรับพารามิเตอร์ที่เชื่อมโยงอย่างราบรื่นระหว่างการวิเคราะห์จำแนกประเภทกำลังสองและการวิเคราะห์จำแนกประเภทเชิงเส้น