การจัดกลุ่มแตกต่างจากการจำแนกประเภทอย่างไร?

การจัดกลุ่มเป็นการเรียนรู้แบบไม่มีผู้สอนและค้นพบกลุ่มจากข้อมูลที่ไม่มีป้ายกำกับ ในขณะที่การจำแนกประเภทเป็นการเรียนรู้แบบมีผู้สอนและกำหนดการสังเกตการณ์ให้กับกลุ่มที่ทราบและมีป้ายกำกับไว้ล่วงหน้า

การจัดกลุ่มมักจะพบกลุ่มที่มีความหมายเสมอไปหรือไม่?

ไม่ อัลกอริทึมการจัดกลุ่มจะแบ่งชุดข้อมูลใด ๆ ดังนั้นผลลัพธ์จึงต้องได้รับการตรวจสอบและตีความ กลุ่มที่ปรากฏอาจสะท้อนถึงวิธีการหรือการเลือกมาตรวัดระยะทางมากกว่าโครงสร้างที่แท้จริง

การวิเคราะห์กลุ่ม (Cluster Analysis)

การวิเคราะห์กลุ่มเป็นการจัดกลุ่มข้อมูลพหุตัวแปรออกเป็นกลุ่มย่อย โดยที่สมาชิกในกลุ่มเดียวกันจะมีความคล้ายคลึงกันมากกว่าสมาชิกในกลุ่มอื่น ๆ โดยไม่มีการกำหนดป้ายกำกับไว้ล่วงหน้า

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การวิเคราะห์กลุ่มคือการแบ่งส่วนแบบไม่มีผู้สอน (unsupervised partitioning) หรือการจัดระเบียบแบบลำดับชั้นของวัตถุออกเป็นกลุ่มตามมาตรวัดความคล้ายคลึงหรือความไม่คล้ายคลึง โดยกลุ่มต่าง ๆ จะถูกค้นพบจากข้อมูลแทนที่จะถูกกำหนดไว้ล่วงหน้า

Scope

ขอบเขตนี้ครอบคลุมการจัดกลุ่มข้อมูลแบบไม่มีผู้สอน (unsupervised grouping) ซึ่งรวมถึงวิธีการจัดลำดับชั้น (hierarchical methods) ที่สร้างโครงสร้างกลุ่มแบบซ้อนกัน วิธีการแบ่งส่วน (partitioning methods) เช่น k-means ที่ปรับปรุงเกณฑ์ภายในกลุ่มให้เหมาะสมสำหรับจำนวนกลุ่มที่กำหนด และวิธีการแบบจำลอง (model-based methods) ที่ถือว่ากลุ่มต่าง ๆ เป็นส่วนประกอบของการแจกแจงแบบผสม (mixture distribution) นอกจากนี้ยังกล่าวถึงการเลือกวิธีการวัดระยะทาง (distance), การเชื่อมโยง (linkage), จำนวนกลุ่ม และการตรวจสอบความถูกต้องของผลลัพธ์การจัดกลุ่ม

Sub-topics

Core questions

จะค้นพบการจัดกลุ่มตามธรรมชาติในข้อมูลพหุตัวแปรที่ไม่มีป้ายกำกับได้อย่างไร?
ความคล้ายคลึงและความไม่คล้ายคลึงสำหรับวัตถุถูกกำหนดไว้อย่างไร?
มีจำนวนกลุ่มเท่าใด และจะเลือกจำนวนนั้นได้อย่างไร?
จะตรวจสอบความถูกต้องและตีความผลลัพธ์การจัดกลุ่มได้อย่างไร?

Key theories

การจัดกลุ่มตามระยะทาง: วิธีการจัดกลุ่มส่วนใหญ่ขึ้นอยู่กับมาตรวัดความไม่คล้ายคลึงกันระหว่างวัตถุและกฎเกณฑ์ เช่น การเชื่อมโยง (linkage) หรือผลรวมกำลังสองภายในกลุ่ม (within-cluster sum of squares) ซึ่งเปลี่ยนความไม่คล้ายคลึงเหล่านั้นให้เป็นกลุ่ม
มุมมองแบบจำลองผสมของกลุ่ม: การจัดกลุ่มแบบจำลองถือว่าแต่ละกลุ่มเป็นส่วนประกอบของการผสมความน่าจะเป็น ดังนั้นการจัดกลุ่มจึงกลายเป็นการประมาณค่าพารามิเตอร์ และจำนวนกลุ่มกลายเป็นปัญหาการเลือกแบบจำลอง

Clinical relevance

การวิเคราะห์กลุ่มถูกนำมาใช้เพื่อค้นหาโครงสร้างในข้อมูลที่ไม่มีป้ายกำกับในหลากหลายสาขา รวมถึงการแบ่งส่วนตลาด (market segmentation), อนุกรมวิธาน (taxonomy), การจัดกลุ่มการแสดงออกของยีน (gene-expression grouping), การแบ่งส่วนภาพ (image segmentation) และการระบุชนิดย่อยของผู้ป่วย

History

การจัดกลุ่มเชิงตัวเลขพัฒนามาจากการจัดจำแนกเชิงตัวเลขในช่วงกลางศตวรรษที่ 20 และถูกจัดระบบเป็นอัลกอริทึมแบบลำดับชั้นและการแบ่งส่วน ต่อมาการจัดกลุ่มแบบจำลองเชิงความน่าจะเป็น ซึ่งสร้างขึ้นจากแบบจำลองการผสมแบบจำกัด (finite mixture models) และอัลกอริทึมการคาดการณ์-การทำให้สูงสุด (expectation-maximization algorithm) ได้วางรากฐานของสาขาวิชานี้บนพื้นฐานของความน่าจะเป็น

Debates

การกำหนดจำนวนกลุ่ม: ไม่มีวิธีการเดียวที่เป็นที่ยอมรับสำหรับการเลือกจำนวนกลุ่ม เกณฑ์ต่าง ๆ มีตั้งแต่สถิติช่องว่าง (gap statistics) และความกว้างของเงา (silhouette widths) ไปจนถึงเกณฑ์ข้อมูลสำหรับแบบจำลองผสม และเกณฑ์เหล่านี้อาจไม่สอดคล้องกัน

Key figures

Leonard Kaufman
Peter Rousseeuw
Brian Everitt

Seminal works

everitt2011
kaufman1990
hastie2009

Frequently asked questions

การจัดกลุ่มแตกต่างจากการจำแนกประเภทอย่างไร?: การจัดกลุ่มเป็นการเรียนรู้แบบไม่มีผู้สอนและค้นพบกลุ่มจากข้อมูลที่ไม่มีป้ายกำกับ ในขณะที่การจำแนกประเภทเป็นการเรียนรู้แบบมีผู้สอนและกำหนดการสังเกตการณ์ให้กับกลุ่มที่ทราบและมีป้ายกำกับไว้ล่วงหน้า
การจัดกลุ่มมักจะพบกลุ่มที่มีความหมายเสมอไปหรือไม่?: ไม่ อัลกอริทึมการจัดกลุ่มจะแบ่งชุดข้อมูลใด ๆ ดังนั้นผลลัพธ์จึงต้องได้รับการตรวจสอบและตีความ กลุ่มที่ปรากฏอาจสะท้อนถึงวิธีการหรือการเลือกมาตรวัดระยะทางมากกว่าโครงสร้างที่แท้จริง