การวิเคราะห์กลุ่ม (Cluster Analysis)
การวิเคราะห์กลุ่มเป็นการจัดกลุ่มข้อมูลพหุตัวแปรออกเป็นกลุ่มย่อย โดยที่สมาชิกในกลุ่มเดียวกันจะมีความคล้ายคลึงกันมากกว่าสมาชิกในกลุ่มอื่น ๆ โดยไม่มีการกำหนดป้ายกำกับไว้ล่วงหน้า
Definition
การวิเคราะห์กลุ่มคือการแบ่งส่วนแบบไม่มีผู้สอน (unsupervised partitioning) หรือการจัดระเบียบแบบลำดับชั้นของวัตถุออกเป็นกลุ่มตามมาตรวัดความคล้ายคลึงหรือความไม่คล้ายคลึง โดยกลุ่มต่าง ๆ จะถูกค้นพบจากข้อมูลแทนที่จะถูกกำหนดไว้ล่วงหน้า
Scope
ขอบเขตนี้ครอบคลุมการจัดกลุ่มข้อมูลแบบไม่มีผู้สอน (unsupervised grouping) ซึ่งรวมถึงวิธีการจัดลำดับชั้น (hierarchical methods) ที่สร้างโครงสร้างกลุ่มแบบซ้อนกัน วิธีการแบ่งส่วน (partitioning methods) เช่น k-means ที่ปรับปรุงเกณฑ์ภายในกลุ่มให้เหมาะสมสำหรับจำนวนกลุ่มที่กำหนด และวิธีการแบบจำลอง (model-based methods) ที่ถือว่ากลุ่มต่าง ๆ เป็นส่วนประกอบของการแจกแจงแบบผสม (mixture distribution) นอกจากนี้ยังกล่าวถึงการเลือกวิธีการวัดระยะทาง (distance), การเชื่อมโยง (linkage), จำนวนกลุ่ม และการตรวจสอบความถูกต้องของผลลัพธ์การจัดกลุ่ม
Sub-topics
Core questions
- จะค้นพบการจัดกลุ่มตามธรรมชาติในข้อมูลพหุตัวแปรที่ไม่มีป้ายกำกับได้อย่างไร?
- ความคล้ายคลึงและความไม่คล้ายคลึงสำหรับวัตถุถูกกำหนดไว้อย่างไร?
- มีจำนวนกลุ่มเท่าใด และจะเลือกจำนวนนั้นได้อย่างไร?
- จะตรวจสอบความถูกต้องและตีความผลลัพธ์การจัดกลุ่มได้อย่างไร?
Key theories
- การจัดกลุ่มตามระยะทาง
- วิธีการจัดกลุ่มส่วนใหญ่ขึ้นอยู่กับมาตรวัดความไม่คล้ายคลึงกันระหว่างวัตถุและกฎเกณฑ์ เช่น การเชื่อมโยง (linkage) หรือผลรวมกำลังสองภายในกลุ่ม (within-cluster sum of squares) ซึ่งเปลี่ยนความไม่คล้ายคลึงเหล่านั้นให้เป็นกลุ่ม
- มุมมองแบบจำลองผสมของกลุ่ม
- การจัดกลุ่มแบบจำลองถือว่าแต่ละกลุ่มเป็นส่วนประกอบของการผสมความน่าจะเป็น ดังนั้นการจัดกลุ่มจึงกลายเป็นการประมาณค่าพารามิเตอร์ และจำนวนกลุ่มกลายเป็นปัญหาการเลือกแบบจำลอง
Clinical relevance
การวิเคราะห์กลุ่มถูกนำมาใช้เพื่อค้นหาโครงสร้างในข้อมูลที่ไม่มีป้ายกำกับในหลากหลายสาขา รวมถึงการแบ่งส่วนตลาด (market segmentation), อนุกรมวิธาน (taxonomy), การจัดกลุ่มการแสดงออกของยีน (gene-expression grouping), การแบ่งส่วนภาพ (image segmentation) และการระบุชนิดย่อยของผู้ป่วย
History
การจัดกลุ่มเชิงตัวเลขพัฒนามาจากการจัดจำแนกเชิงตัวเลขในช่วงกลางศตวรรษที่ 20 และถูกจัดระบบเป็นอัลกอริทึมแบบลำดับชั้นและการแบ่งส่วน ต่อมาการจัดกลุ่มแบบจำลองเชิงความน่าจะเป็น ซึ่งสร้างขึ้นจากแบบจำลองการผสมแบบจำกัด (finite mixture models) และอัลกอริทึมการคาดการณ์-การทำให้สูงสุด (expectation-maximization algorithm) ได้วางรากฐานของสาขาวิชานี้บนพื้นฐานของความน่าจะเป็น
Debates
- การกำหนดจำนวนกลุ่ม
- ไม่มีวิธีการเดียวที่เป็นที่ยอมรับสำหรับการเลือกจำนวนกลุ่ม เกณฑ์ต่าง ๆ มีตั้งแต่สถิติช่องว่าง (gap statistics) และความกว้างของเงา (silhouette widths) ไปจนถึงเกณฑ์ข้อมูลสำหรับแบบจำลองผสม และเกณฑ์เหล่านี้อาจไม่สอดคล้องกัน
Key figures
- Leonard Kaufman
- Peter Rousseeuw
- Brian Everitt
Related topics
Seminal works
- everitt2011
- kaufman1990
- hastie2009
Frequently asked questions
- การจัดกลุ่มแตกต่างจากการจำแนกประเภทอย่างไร?
- การจัดกลุ่มเป็นการเรียนรู้แบบไม่มีผู้สอนและค้นพบกลุ่มจากข้อมูลที่ไม่มีป้ายกำกับ ในขณะที่การจำแนกประเภทเป็นการเรียนรู้แบบมีผู้สอนและกำหนดการสังเกตการณ์ให้กับกลุ่มที่ทราบและมีป้ายกำกับไว้ล่วงหน้า
- การจัดกลุ่มมักจะพบกลุ่มที่มีความหมายเสมอไปหรือไม่?
- ไม่ อัลกอริทึมการจัดกลุ่มจะแบ่งชุดข้อมูลใด ๆ ดังนั้นผลลัพธ์จึงต้องได้รับการตรวจสอบและตีความ กลุ่มที่ปรากฏอาจสะท้อนถึงวิธีการหรือการเลือกมาตรวัดระยะทางมากกว่าโครงสร้างที่แท้จริง