การจัดกลุ่มตามแบบจำลองแตกต่างจากการจัดกลุ่มแบบ K-means อย่างไร?

K-means ทำการกำหนดแบบแข็ง (hard assignments) โดยลดระยะทางกำลังสองให้เหลือน้อยที่สุด และโดยนัยแล้วสมมติว่ากลุ่มเป็นทรงกลม ในขณะที่การจัดกลุ่มตามแบบจำลองจะปรับแบบจำลองการผสมผสานความน่าจะเป็น ให้การเป็นสมาชิกแบบอ่อน (soft memberships) และสามารถสร้างแบบจำลองกลุ่มที่มีรูปร่าง ขนาด และการวางแนวที่แตกต่างกันได้.

อัลกอริทึม EM ทำอะไรในที่นี้?

มันจะประมาณค่าความน่าจะเป็นที่แต่ละการสังเกตเป็นของแต่ละกลุ่มซ้ำๆ และจากนั้นจะอัปเดตการแจกแจงของกลุ่ม โดยทำซ้ำจนกว่าความน่าจะเป็นของการผสมผสานจะคงที่.

การจัดกลุ่มตามแบบจำลอง (Model-Based Clustering)

การจัดกลุ่มตามแบบจำลองถือว่าข้อมูลเกิดจากการผสมผสานแบบจำกัดของการแจกแจงความน่าจะเป็น โดยที่แต่ละองค์ประกอบแทนกลุ่มหนึ่ง และประมาณค่าแบบจำลองด้วยวิธีความน่าจะเป็นสูงสุด (maximum likelihood).

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การจัดกลุ่มตามแบบจำลองเป็นแนวทางที่สร้างแบบจำลองประชากรเป็นการผสมผสานของการแจกแจงองค์ประกอบ กำหนดความน่าจะเป็นภายหลังของการเป็นสมาชิกแต่ละองค์ประกอบให้กับแต่ละการสังเกต และด้วยเหตุนี้จึงได้กลุ่มต่างๆ เป็นองค์ประกอบการผสมผสานที่ประมาณค่าได้.

Scope

หัวข้อนี้ครอบคลุมแบบจำลองการผสมผสานแบบจำกัด (finite mixture models) ซึ่งโดยทั่วไปมักเป็นแบบจำลองการผสมผสานแบบเกาส์เซียน (Gaussian mixtures) อัลกอริทึมการคาดการณ์-การทำให้สูงสุด (expectation-maximization algorithm) สำหรับการประมาณค่าพารามิเตอร์การผสมผสานและการเป็นสมาชิกกลุ่มภายหลัง (posterior cluster memberships) การกำหนดพารามิเตอร์ของความแปรปรวนร่วมขององค์ประกอบที่ควบคุมรูปร่างและการวางแนวของกลุ่ม และการใช้เกณฑ์สารสนเทศ (information criteria) เพื่อเลือกจำนวนองค์ประกอบ.

Core questions

การจัดกลุ่มสามารถกำหนดเป็นปัญหาการประมาณค่าทางสถิติได้อย่างไร?
พารามิเตอร์การผสมผสานและการเป็นสมาชิกกลุ่มแบบอ่อน (soft cluster memberships) ถูกประมาณค่าอย่างไร?
การกำหนดพารามิเตอร์ความแปรปรวนร่วมควบคุมเรขาคณิตของกลุ่มได้อย่างไร?
จำนวนองค์ประกอบการผสมผสานถูกเลือกอย่างไร?

Key theories

การกำหนดสูตรการผสมผสานแบบจำกัด: แต่ละการสังเกตถูกสมมติว่าดึงมาจากหนึ่งในการแจกแจงองค์ประกอบหลายอย่างที่มีสัดส่วนการผสมผสานที่ไม่ทราบค่า ดังนั้นการจัดกลุ่มจึงลดลงเป็นการประมาณค่าองค์ประกอบและการกำหนดความน่าจะเป็นการเป็นสมาชิกภายหลัง.
การประมาณค่าด้วยวิธีคาดการณ์-การทำให้สูงสุด: เมื่อพิจารณาป้ายกำกับกลุ่มเป็นข้อมูลที่ขาดหายไป อัลกอริทึม EM จะสลับระหว่างการคำนวณการเป็นสมาชิกที่คาดหวังและการประมาณค่าพารามิเตอร์องค์ประกอบใหม่ โดยจะลู่เข้าสู่การปรับแบบจำลองการผสมผสานที่ให้ความน่าจะเป็นสูงสุด.

Clinical relevance

การจัดกลุ่มตามแบบจำลองให้การกำหนดกลุ่มตามความน่าจะเป็นและการเลือกแบบจำลองที่เป็นหลักการ และถูกนำไปใช้ในการประมาณค่าความหนาแน่น การจำแนกประชากรย่อย และในสถานการณ์ที่กลุ่มที่ทับซ้อนกันหรือมีรูปร่างแตกต่างกันต้องการแบบจำลองทางสถิติ.

History

แบบจำลองการผสมผสานแบบจำกัดมีประวัติทางสถิติมาอย่างยาวนาน แต่การใช้งานในฐานะกรอบการจัดกลุ่มได้ขยายตัวพร้อมกับอัลกอริทึมการคาดการณ์-การทำให้สูงสุด และด้วยการกำหนดพารามิเตอร์ความแปรปรวนร่วมและเกณฑ์การเลือกแบบจำลองที่ทำให้การจัดกลุ่มแบบผสมผสานเกาส์เซียนเป็นไปได้ในทางปฏิบัติและแพร่หลาย.

Debates

การเลือกจำนวนองค์ประกอบ: เกณฑ์สารสนเทศ เช่น เกณฑ์สารสนเทศแบบเบย์ (Bayesian information criterion) มักถูกใช้เพื่อเลือกจำนวนองค์ประกอบการผสมผสาน แต่การเลือกโดยอิงความน่าจะเป็นอาจมีความอ่อนไหวต่อข้อสมมติฐานของแบบจำลองและต่อองค์ประกอบที่ทับซ้อนกัน.

Key figures

Geoffrey McLachlan
Adrian Raftery
Chris Fraley

Seminal works

mclachlan2000
fraley2002
hastie2009

Frequently asked questions

การจัดกลุ่มตามแบบจำลองแตกต่างจากการจัดกลุ่มแบบ K-means อย่างไร?: K-means ทำการกำหนดแบบแข็ง (hard assignments) โดยลดระยะทางกำลังสองให้เหลือน้อยที่สุด และโดยนัยแล้วสมมติว่ากลุ่มเป็นทรงกลม ในขณะที่การจัดกลุ่มตามแบบจำลองจะปรับแบบจำลองการผสมผสานความน่าจะเป็น ให้การเป็นสมาชิกแบบอ่อน (soft memberships) และสามารถสร้างแบบจำลองกลุ่มที่มีรูปร่าง ขนาด และการวางแนวที่แตกต่างกันได้.
อัลกอริทึม EM ทำอะไรในที่นี้?: มันจะประมาณค่าความน่าจะเป็นที่แต่ละการสังเกตเป็นของแต่ละกลุ่มซ้ำๆ และจากนั้นจะอัปเดตการแจกแจงของกลุ่ม โดยทำซ้ำจนกว่าความน่าจะเป็นของการผสมผสานจะคงที่.