ScholarGate
ผู้ช่วย

การจำแนกประเภทและการวิเคราะห์จำแนกกลุ่ม

การจำแนกประเภทและการวิเคราะห์จำแนกกลุ่มประกอบด้วยวิธีการทางสถิติหลายตัวแปรที่กำหนดการสังเกตการณ์ให้กับกลุ่มที่กำหนดไว้ล่วงหน้าโดยใช้คุณลักษณะที่วัดได้และตัวอย่างของกรณีที่มีป้ายกำกับ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การวิเคราะห์จำแนกกลุ่มและการจำแนกประเภทคือการสร้างกฎเกณฑ์ที่กำหนดการสังเกตการณ์หลายตัวแปรให้กับหนึ่งในหลายกลุ่มที่ทราบ เพื่อลดต้นทุนหรือข้อผิดพลาดที่คาดว่าจะเกิดขึ้นจากการจำแนกประเภทผิดพลาด

Scope

ขอบเขตนี้ครอบคลุมการจำแนกประเภทแบบมีผู้สอนของการสังเกตการณ์หลายตัวแปร ซึ่งรวมถึงการจำแนกเชิงเส้นของฟิชเชอร์ (Fisher's linear discriminant) และการตีความแบบจำลองเกาส์เซียน (Gaussian-model interpretation) การวิเคราะห์จำแนกกลุ่มแบบกำลังสอง (quadratic discriminant analysis) สำหรับความแปรปรวนร่วมของกลุ่มที่ไม่เท่ากัน การจำแนกแบบโลจิสติก (logistic discrimination) ในฐานะแบบจำลองโดยตรงของความน่าจะเป็นของการเป็นสมาชิกกลุ่ม และวิธีการที่อิงตามระยะขอบ (margin-based methods) เช่น เครื่องจักรเวกเตอร์สนับสนุน (support vector machines) โดยมุ่งเน้นที่การสร้าง รูปทรงเรขาคณิต และการประเมินขอบเขตการตัดสินใจ

Sub-topics

Core questions

  • ควรจะกำหนดการสังเกตการณ์ให้กับหนึ่งในหลายกลุ่มที่ทราบจากคุณลักษณะที่วัดได้อย่างไร?
  • ขอบเขตการตัดสินใจใดที่ลดต้นทุนการจำแนกประเภทผิดพลาดที่คาดว่าจะเกิดขึ้น?
  • เมื่อใดที่ขอบเขตเชิงเส้นเพียงพอ และเมื่อใดที่จำเป็นต้องใช้ขอบเขตแบบกำลังสองหรือไม่เป็นเชิงเส้น?
  • จะประเมินประสิทธิภาพของตัวจำแนกประเภทได้อย่างไรโดยไม่มีอคติในแง่ดี?

Key theories

การจำแนกประเภทที่เหมาะสมที่สุดแบบเบย์ (Bayes-optimal classification)
การกำหนดการสังเกตการณ์แต่ละรายการให้กับกลุ่มที่มีความน่าจะเป็นภายหลังสูงสุดจะช่วยลดข้อผิดพลาดในการจำแนกประเภทผิดพลาดที่คาดว่าจะเกิดขึ้น; วิธีการจำแนกกลุ่มแบบพารามิเตอร์จะประมาณค่าความน่าจะเป็นภายหลังเหล่านี้ภายใต้สมมติฐานการแจกแจง
การจำแนกเชิงเส้นของฟิชเชอร์ (Fisher's linear discriminant)
ฟิชเชอร์แสวงหาการรวมกันเชิงเส้นของลักษณะที่แยกค่าเฉลี่ยของกลุ่มได้สูงสุดเมื่อเทียบกับการกระจายภายในกลุ่ม ทำให้เกิดทิศทางการจำแนกกลุ่มที่ภายใต้ความแปรปรวนร่วมแบบเกาส์เซียนที่เท่ากัน จะสอดคล้องกับกฎของเบย์

Clinical relevance

วิธีการจำแนกประเภทถูกนำมาใช้ในทุกที่ที่ต้องจัดเรียงกรณีต่างๆ ออกเป็นหมวดหมู่ที่ทราบจากการวัดค่าหลายตัวแปร รวมถึงการวินิจฉัยทางการแพทย์ การให้คะแนนเครดิต การระบุชนิดพันธุ์ และการทำแผนที่การใช้ที่ดินจากการสำรวจระยะไกล

History

สาขาวิชานี้เริ่มต้นด้วยการจำแนกเชิงเส้นของฟิชเชอร์ในปี 1936 ซึ่งนำไปใช้กับการวัดทางอนุกรมวิธาน ตามมาด้วยการกำหนดสูตรเชิงความน่าจะเป็นและแบบเกาส์เซียน การจำแนกแบบโลจิสติกได้ให้แบบจำลองโดยตรงของความน่าจะเป็นของกลุ่ม และการพัฒนาวิธีการที่อิงตามระยะขอบและเคอร์เนลในช่วงปลายศตวรรษที่ 20 ได้ขยายการจำแนกประเภทไปสู่การตั้งค่าที่มีมิติสูงและไม่เป็นเชิงเส้น

Debates

การจำแนกประเภทแบบสร้าง (Generative) เทียบกับแบบจำแนก (Discriminative)
วิธีการแบบสร้าง เช่น การวิเคราะห์จำแนกกลุ่ม จะจำลองการแจกแจงลักษณะภายในแต่ละชั้นเรียน ในขณะที่วิธีการแบบจำแนก เช่น การถดถอยโลจิสติก (logistic regression) และเครื่องจักรเวกเตอร์สนับสนุน จะจำลองขอบเขตหรือความน่าจะเป็นของชั้นเรียนโดยตรง; ข้อดีข้อเสียสัมพัทธ์ของวิธีการเหล่านี้ขึ้นอยู่กับขนาดตัวอย่างและว่าสมมติฐานการแจกแจงเป็นจริงได้ดีเพียงใด

Key figures

  • Ronald A. Fisher
  • Vladimir Vapnik

Related topics

Seminal works

  • fisher1936
  • hastie2009
  • johnson2007

Frequently asked questions

การจำแนกประเภทแตกต่างจากการจัดกลุ่มอย่างไร?
การจำแนกประเภทเป็นแบบมีผู้สอน: กลุ่มต่างๆ เป็นที่ทราบล่วงหน้าและมีตัวอย่างการฝึกอบรมที่มีป้ายกำกับให้ใช้งาน การจัดกลุ่มเป็นแบบไม่มีผู้สอนและค้นพบการจัดกลุ่มโดยไม่มีป้ายกำกับที่กำหนดไว้ล่วงหน้า
เหตุใดจึงต้องประมาณข้อผิดพลาดจากข้อมูลที่ไม่ได้ใช้ในการฝึก?
ข้อผิดพลาดที่วัดจากข้อมูลชุดเดียวกับที่ใช้ในการสร้างตัวจำแนกประเภทจะมีอคติในแง่ดี ดังนั้นจึงจำเป็นต้องมีการประมาณค่านอกตัวอย่างจากการตรวจสอบข้าม (cross-validation) หรือชุดทดสอบเพื่อประเมินประสิทธิภาพการทำนายที่แท้จริง

Methods for this concept

Related concepts