การจัดกลุ่มตามแบบจำลอง (Model-Based Clustering)
การจัดกลุ่มตามแบบจำลองถือว่าข้อมูลเกิดจากการผสมผสานแบบจำกัดของการแจกแจงความน่าจะเป็น โดยที่แต่ละองค์ประกอบแทนกลุ่มหนึ่ง และประมาณค่าแบบจำลองด้วยวิธีความน่าจะเป็นสูงสุด (maximum likelihood).
Definition
การจัดกลุ่มตามแบบจำลองเป็นแนวทางที่สร้างแบบจำลองประชากรเป็นการผสมผสานของการแจกแจงองค์ประกอบ กำหนดความน่าจะเป็นภายหลังของการเป็นสมาชิกแต่ละองค์ประกอบให้กับแต่ละการสังเกต และด้วยเหตุนี้จึงได้กลุ่มต่างๆ เป็นองค์ประกอบการผสมผสานที่ประมาณค่าได้.
Scope
หัวข้อนี้ครอบคลุมแบบจำลองการผสมผสานแบบจำกัด (finite mixture models) ซึ่งโดยทั่วไปมักเป็นแบบจำลองการผสมผสานแบบเกาส์เซียน (Gaussian mixtures) อัลกอริทึมการคาดการณ์-การทำให้สูงสุด (expectation-maximization algorithm) สำหรับการประมาณค่าพารามิเตอร์การผสมผสานและการเป็นสมาชิกกลุ่มภายหลัง (posterior cluster memberships) การกำหนดพารามิเตอร์ของความแปรปรวนร่วมขององค์ประกอบที่ควบคุมรูปร่างและการวางแนวของกลุ่ม และการใช้เกณฑ์สารสนเทศ (information criteria) เพื่อเลือกจำนวนองค์ประกอบ.
Core questions
- การจัดกลุ่มสามารถกำหนดเป็นปัญหาการประมาณค่าทางสถิติได้อย่างไร?
- พารามิเตอร์การผสมผสานและการเป็นสมาชิกกลุ่มแบบอ่อน (soft cluster memberships) ถูกประมาณค่าอย่างไร?
- การกำหนดพารามิเตอร์ความแปรปรวนร่วมควบคุมเรขาคณิตของกลุ่มได้อย่างไร?
- จำนวนองค์ประกอบการผสมผสานถูกเลือกอย่างไร?
Key theories
- การกำหนดสูตรการผสมผสานแบบจำกัด
- แต่ละการสังเกตถูกสมมติว่าดึงมาจากหนึ่งในการแจกแจงองค์ประกอบหลายอย่างที่มีสัดส่วนการผสมผสานที่ไม่ทราบค่า ดังนั้นการจัดกลุ่มจึงลดลงเป็นการประมาณค่าองค์ประกอบและการกำหนดความน่าจะเป็นการเป็นสมาชิกภายหลัง.
- การประมาณค่าด้วยวิธีคาดการณ์-การทำให้สูงสุด
- เมื่อพิจารณาป้ายกำกับกลุ่มเป็นข้อมูลที่ขาดหายไป อัลกอริทึม EM จะสลับระหว่างการคำนวณการเป็นสมาชิกที่คาดหวังและการประมาณค่าพารามิเตอร์องค์ประกอบใหม่ โดยจะลู่เข้าสู่การปรับแบบจำลองการผสมผสานที่ให้ความน่าจะเป็นสูงสุด.
Clinical relevance
การจัดกลุ่มตามแบบจำลองให้การกำหนดกลุ่มตามความน่าจะเป็นและการเลือกแบบจำลองที่เป็นหลักการ และถูกนำไปใช้ในการประมาณค่าความหนาแน่น การจำแนกประชากรย่อย และในสถานการณ์ที่กลุ่มที่ทับซ้อนกันหรือมีรูปร่างแตกต่างกันต้องการแบบจำลองทางสถิติ.
History
แบบจำลองการผสมผสานแบบจำกัดมีประวัติทางสถิติมาอย่างยาวนาน แต่การใช้งานในฐานะกรอบการจัดกลุ่มได้ขยายตัวพร้อมกับอัลกอริทึมการคาดการณ์-การทำให้สูงสุด และด้วยการกำหนดพารามิเตอร์ความแปรปรวนร่วมและเกณฑ์การเลือกแบบจำลองที่ทำให้การจัดกลุ่มแบบผสมผสานเกาส์เซียนเป็นไปได้ในทางปฏิบัติและแพร่หลาย.
Debates
- การเลือกจำนวนองค์ประกอบ
- เกณฑ์สารสนเทศ เช่น เกณฑ์สารสนเทศแบบเบย์ (Bayesian information criterion) มักถูกใช้เพื่อเลือกจำนวนองค์ประกอบการผสมผสาน แต่การเลือกโดยอิงความน่าจะเป็นอาจมีความอ่อนไหวต่อข้อสมมติฐานของแบบจำลองและต่อองค์ประกอบที่ทับซ้อนกัน.
Key figures
- Geoffrey McLachlan
- Adrian Raftery
- Chris Fraley
Related topics
Seminal works
- mclachlan2000
- fraley2002
- hastie2009
Frequently asked questions
- การจัดกลุ่มตามแบบจำลองแตกต่างจากการจัดกลุ่มแบบ K-means อย่างไร?
- K-means ทำการกำหนดแบบแข็ง (hard assignments) โดยลดระยะทางกำลังสองให้เหลือน้อยที่สุด และโดยนัยแล้วสมมติว่ากลุ่มเป็นทรงกลม ในขณะที่การจัดกลุ่มตามแบบจำลองจะปรับแบบจำลองการผสมผสานความน่าจะเป็น ให้การเป็นสมาชิกแบบอ่อน (soft memberships) และสามารถสร้างแบบจำลองกลุ่มที่มีรูปร่าง ขนาด และการวางแนวที่แตกต่างกันได้.
- อัลกอริทึม EM ทำอะไรในที่นี้?
- มันจะประมาณค่าความน่าจะเป็นที่แต่ละการสังเกตเป็นของแต่ละกลุ่มซ้ำๆ และจากนั้นจะอัปเดตการแจกแจงของกลุ่ม โดยทำซ้ำจนกว่าความน่าจะเป็นของการผสมผสานจะคงที่.