ScholarGate
ผู้ช่วย

การจัดกลุ่มแบบ K-Means

การจัดกลุ่มแบบ K-means แบ่งข้อมูลออกเป็นจำนวนกลุ่มที่กำหนดไว้ โดยลดผลรวมกำลังสองของระยะห่างภายในกลุ่มไปยังจุดศูนย์กลางของกลุ่มให้เหลือน้อยที่สุด

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics
Tools & resources
ดาวน์โหลดสไลด์
Learn & explore
วิดีโอเร็ว ๆ นี้

Definition

การจัดกลุ่มแบบ K-means เป็นวิธีการแบ่งกลุ่มที่กำหนดจำนวนจุดศูนย์กลางของกลุ่มที่กำหนดไว้ และกำหนดแต่ละข้อมูลไปยังจุดศูนย์กลางที่ใกล้ที่สุด เพื่อลดผลรวมกำลังสองของระยะทางแบบยุคลิดจากข้อมูลไปยังจุดศูนย์กลางที่กำหนดให้เหลือน้อยที่สุด

Scope

หัวข้อนี้ครอบคลุมวัตถุประสงค์ของผลรวมกำลังสองภายในกลุ่ม, อัลกอริทึมการกำหนดและปรับปรุงซ้ำๆ ที่สลับระหว่างการกำหนดจุดไปยังจุดศูนย์กลางที่ใกล้ที่สุดและการคำนวณจุดศูนย์กลางใหม่, การพึ่งพาการเริ่มต้นและจุดเหมาะสมที่สุดเฉพาะที่ที่เกิดขึ้น, การเลือกจำนวนกลุ่ม, และข้อสมมติฐานและข้อจำกัดของวิธีการนี้

Core questions

  • จะแบ่งข้อมูลเพื่อลดการกระจายตัวภายในกลุ่มได้อย่างไร?
  • เหตุใดอัลกอริทึมจึงลู่เข้าสู่จุดเหมาะสมที่สุดเฉพาะที่เท่านั้น และจะบรรเทาปัญหานี้ได้อย่างไร?
  • จะเลือกจำนวนกลุ่มได้อย่างไร?
  • วิธีการนี้มีข้อสมมติฐานเกี่ยวกับรูปร่างและขนาดของกลุ่มอย่างไรบ้าง?

Key theories

การลดผลรวมกำลังสองภายในกลุ่มให้เหลือน้อยที่สุด
K-means แสวงหาการแบ่งกลุ่มและชุดของจุดศูนย์กลางที่ลดผลรวมกำลังสองของระยะห่างจากจุดไปยังจุดศูนย์กลางของกลุ่มให้เหลือน้อยที่สุด ซึ่งเป็นวัตถุประสงค์ที่การทำซ้ำการกำหนด-ปรับปรุงแบบสลับกันจะลดเกณฑ์ลงอย่างต่อเนื่อง
ความไวต่อจุดเหมาะสมที่สุดเฉพาะที่
เนื่องจากวัตถุประสงค์ไม่เป็นนูน (non-convex) อัลกอริทึมจึงลู่เข้าสู่ค่าต่ำสุดเฉพาะที่ที่ขึ้นอยู่กับจุดศูนย์กลางเริ่มต้น ซึ่งกระตุ้นให้มีการเริ่มต้นใหม่หลายครั้งและการเลือกจุดเริ่มต้นอย่างระมัดระวัง

Clinical relevance

K-means เป็นวิธีการเริ่มต้นที่รวดเร็วและปรับขนาดได้สำหรับการแบ่งชุดข้อมูลขนาดใหญ่ และใช้ในการหาปริมาณเวกเตอร์, การลดสีของภาพ, การแบ่งส่วนลูกค้า, และเป็นจุดเริ่มต้นสำหรับแบบจำลองที่ซับซ้อนมากขึ้น

History

แนวคิดการแบ่งกลุ่มตามจุดศูนย์กลางได้รับการกำหนดอย่างเป็นทางการโดย MacQueen ซึ่งตั้งชื่อ k-means ในปี 1967 โดยต่อยอดจากอัลกอริทึมการหาปริมาณของ Lloyd ก่อนหน้านี้ วิธีการนี้กลายเป็นหนึ่งในวิธีการจัดกลุ่มที่ใช้กันอย่างแพร่หลายที่สุดเนื่องจากความเรียบง่ายและความเร็ว

Debates

ข้อสมมติฐานโดยนัยของ k-means
การลดระยะทางแบบยุคลิดกำลังสองให้เหลือน้อยที่สุดจะสนับสนุนกลุ่มที่มีรูปร่างค่อนข้างกลมและมีขนาดเท่ากัน ดังนั้น k-means อาจทำให้เข้าใจผิดได้เมื่อกลุ่มมีรูปร่างยาว, มีขนาดไม่เท่ากัน, หรือไม่เป็นนูน ซึ่งกระตุ้นให้มีการใช้วิธีการทางเลือกที่อิงตามแบบจำลองหรือความหนาแน่น

Key figures

  • James MacQueen
  • Stuart Lloyd

Related topics

Seminal works

  • hastie2009
  • everitt2011
  • macqueen1967

Frequently asked questions

เหตุใด k-means จึงให้ผลลัพธ์ที่แตกต่างกันในการรันแต่ละครั้ง?
วัตถุประสงค์ของมันไม่เป็นนูน ดังนั้นอัลกอริทึมจึงลู่เข้าสู่จุดเหมาะสมที่สุดเฉพาะที่ที่ขึ้นอยู่กับจุดศูนย์กลางเริ่มต้นแบบสุ่ม การรันหลายครั้งและเก็บผลลัพธ์ที่ดีที่สุดจึงเป็นแนวปฏิบัติมาตรฐาน
จะเลือกจำนวนกลุ่ม k ได้อย่างไร?
หลักการทั่วไปได้แก่ จุดหักศอก (elbow) ในผลรวมกำลังสองภายในกลุ่ม, สถิติช่องว่าง (gap statistic), และความกว้างของภาพเงาเฉลี่ย (average silhouette width) แม้ว่าจะไม่มีวิธีใดที่แน่นอน และความรู้เฉพาะทางมักจะช่วยในการตัดสินใจเลือก

Methods for this concept

Related concepts