การจำแนกประเภทและการวิเคราะห์จำแนกกลุ่ม
การจำแนกประเภทและการวิเคราะห์จำแนกกลุ่มประกอบด้วยวิธีการทางสถิติหลายตัวแปรที่กำหนดการสังเกตการณ์ให้กับกลุ่มที่กำหนดไว้ล่วงหน้าโดยใช้คุณลักษณะที่วัดได้และตัวอย่างของกรณีที่มีป้ายกำกับ
Definition
การวิเคราะห์จำแนกกลุ่มและการจำแนกประเภทคือการสร้างกฎเกณฑ์ที่กำหนดการสังเกตการณ์หลายตัวแปรให้กับหนึ่งในหลายกลุ่มที่ทราบ เพื่อลดต้นทุนหรือข้อผิดพลาดที่คาดว่าจะเกิดขึ้นจากการจำแนกประเภทผิดพลาด
Scope
ขอบเขตนี้ครอบคลุมการจำแนกประเภทแบบมีผู้สอนของการสังเกตการณ์หลายตัวแปร ซึ่งรวมถึงการจำแนกเชิงเส้นของฟิชเชอร์ (Fisher's linear discriminant) และการตีความแบบจำลองเกาส์เซียน (Gaussian-model interpretation) การวิเคราะห์จำแนกกลุ่มแบบกำลังสอง (quadratic discriminant analysis) สำหรับความแปรปรวนร่วมของกลุ่มที่ไม่เท่ากัน การจำแนกแบบโลจิสติก (logistic discrimination) ในฐานะแบบจำลองโดยตรงของความน่าจะเป็นของการเป็นสมาชิกกลุ่ม และวิธีการที่อิงตามระยะขอบ (margin-based methods) เช่น เครื่องจักรเวกเตอร์สนับสนุน (support vector machines) โดยมุ่งเน้นที่การสร้าง รูปทรงเรขาคณิต และการประเมินขอบเขตการตัดสินใจ
Sub-topics
Core questions
- ควรจะกำหนดการสังเกตการณ์ให้กับหนึ่งในหลายกลุ่มที่ทราบจากคุณลักษณะที่วัดได้อย่างไร?
- ขอบเขตการตัดสินใจใดที่ลดต้นทุนการจำแนกประเภทผิดพลาดที่คาดว่าจะเกิดขึ้น?
- เมื่อใดที่ขอบเขตเชิงเส้นเพียงพอ และเมื่อใดที่จำเป็นต้องใช้ขอบเขตแบบกำลังสองหรือไม่เป็นเชิงเส้น?
- จะประเมินประสิทธิภาพของตัวจำแนกประเภทได้อย่างไรโดยไม่มีอคติในแง่ดี?
Key theories
- การจำแนกประเภทที่เหมาะสมที่สุดแบบเบย์ (Bayes-optimal classification)
- การกำหนดการสังเกตการณ์แต่ละรายการให้กับกลุ่มที่มีความน่าจะเป็นภายหลังสูงสุดจะช่วยลดข้อผิดพลาดในการจำแนกประเภทผิดพลาดที่คาดว่าจะเกิดขึ้น; วิธีการจำแนกกลุ่มแบบพารามิเตอร์จะประมาณค่าความน่าจะเป็นภายหลังเหล่านี้ภายใต้สมมติฐานการแจกแจง
- การจำแนกเชิงเส้นของฟิชเชอร์ (Fisher's linear discriminant)
- ฟิชเชอร์แสวงหาการรวมกันเชิงเส้นของลักษณะที่แยกค่าเฉลี่ยของกลุ่มได้สูงสุดเมื่อเทียบกับการกระจายภายในกลุ่ม ทำให้เกิดทิศทางการจำแนกกลุ่มที่ภายใต้ความแปรปรวนร่วมแบบเกาส์เซียนที่เท่ากัน จะสอดคล้องกับกฎของเบย์
Clinical relevance
วิธีการจำแนกประเภทถูกนำมาใช้ในทุกที่ที่ต้องจัดเรียงกรณีต่างๆ ออกเป็นหมวดหมู่ที่ทราบจากการวัดค่าหลายตัวแปร รวมถึงการวินิจฉัยทางการแพทย์ การให้คะแนนเครดิต การระบุชนิดพันธุ์ และการทำแผนที่การใช้ที่ดินจากการสำรวจระยะไกล
History
สาขาวิชานี้เริ่มต้นด้วยการจำแนกเชิงเส้นของฟิชเชอร์ในปี 1936 ซึ่งนำไปใช้กับการวัดทางอนุกรมวิธาน ตามมาด้วยการกำหนดสูตรเชิงความน่าจะเป็นและแบบเกาส์เซียน การจำแนกแบบโลจิสติกได้ให้แบบจำลองโดยตรงของความน่าจะเป็นของกลุ่ม และการพัฒนาวิธีการที่อิงตามระยะขอบและเคอร์เนลในช่วงปลายศตวรรษที่ 20 ได้ขยายการจำแนกประเภทไปสู่การตั้งค่าที่มีมิติสูงและไม่เป็นเชิงเส้น
Debates
- การจำแนกประเภทแบบสร้าง (Generative) เทียบกับแบบจำแนก (Discriminative)
- วิธีการแบบสร้าง เช่น การวิเคราะห์จำแนกกลุ่ม จะจำลองการแจกแจงลักษณะภายในแต่ละชั้นเรียน ในขณะที่วิธีการแบบจำแนก เช่น การถดถอยโลจิสติก (logistic regression) และเครื่องจักรเวกเตอร์สนับสนุน จะจำลองขอบเขตหรือความน่าจะเป็นของชั้นเรียนโดยตรง; ข้อดีข้อเสียสัมพัทธ์ของวิธีการเหล่านี้ขึ้นอยู่กับขนาดตัวอย่างและว่าสมมติฐานการแจกแจงเป็นจริงได้ดีเพียงใด
Key figures
- Ronald A. Fisher
- Vladimir Vapnik
Related topics
Seminal works
- fisher1936
- hastie2009
- johnson2007
Frequently asked questions
- การจำแนกประเภทแตกต่างจากการจัดกลุ่มอย่างไร?
- การจำแนกประเภทเป็นแบบมีผู้สอน: กลุ่มต่างๆ เป็นที่ทราบล่วงหน้าและมีตัวอย่างการฝึกอบรมที่มีป้ายกำกับให้ใช้งาน การจัดกลุ่มเป็นแบบไม่มีผู้สอนและค้นพบการจัดกลุ่มโดยไม่มีป้ายกำกับที่กำหนดไว้ล่วงหน้า
- เหตุใดจึงต้องประมาณข้อผิดพลาดจากข้อมูลที่ไม่ได้ใช้ในการฝึก?
- ข้อผิดพลาดที่วัดจากข้อมูลชุดเดียวกับที่ใช้ในการสร้างตัวจำแนกประเภทจะมีอคติในแง่ดี ดังนั้นจึงจำเป็นต้องมีการประมาณค่านอกตัวอย่างจากการตรวจสอบข้าม (cross-validation) หรือชุดทดสอบเพื่อประเมินประสิทธิภาพการทำนายที่แท้จริง