ScholarGate
Trợ lý

Phân tích cụm phân cấp

Phân tích cụm phân cấp xây dựng một chuỗi lồng nhau các cụm, được hình dung dưới dạng biểu đồ cây (dendrogram), bằng cách hợp nhất hoặc chia tách các nhóm liên tiếp theo một tiêu chí liên kết.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics
Tools & resources
Tải xuống bản trình chiếu
Learn & explore
VideoSắp ra mắt

Definition

Phân tích cụm phân cấp là một phương pháp phân cụm tạo ra một cây các phân vùng lồng nhau bằng cách kết hợp lặp đi lặp lại các cụm tương tự nhất, hoặc chia tách các cụm kém gắn kết nhất, theo một khoảng cách giữa các cụm đã chọn.

Scope

Chủ đề này bao gồm phân cụm phân cấp gom nhóm (từ dưới lên) và phân chia (từ trên xuống), các quy tắc liên kết phổ biến như liên kết đơn, liên kết hoàn chỉnh, liên kết trung bình và liên kết phương sai tối thiểu của Ward, việc xây dựng và diễn giải biểu đồ cây, và việc cắt cây để thu được một phân vùng phẳng.

Core questions

  • Làm thế nào để xây dựng một họ phân cụm lồng nhau từ các sự khác biệt từng cặp?
  • Các quy tắc liên kết khác nhau định hình các cụm kết quả như thế nào?
  • Biểu đồ cây được đọc như thế nào và nên cắt ở đâu?
  • Khi nào một cấu trúc phân cấp mang lại nhiều thông tin hơn một phân vùng phẳng duy nhất?

Key theories

Hợp nhất được định nghĩa bằng liên kết
Phân cụm gom nhóm liên tục hợp nhất hai cụm gần nhất theo định nghĩa liên kết; các liên kết đơn, hoàn chỉnh, trung bình và Ward mã hóa các khái niệm khác nhau về khoảng cách giữa các cụm và tạo ra các hình dạng cụm khác biệt đặc trưng.
Biểu diễn biểu đồ cây
Trình tự hợp nhất được mã hóa dưới dạng biểu đồ cây có chiều cao hợp nhất ghi lại sự khác biệt, cho phép thu được bất kỳ số lượng cụm nào bằng cách cắt cây ở một chiều cao đã chọn.

Clinical relevance

Phân cụm phân cấp được sử dụng rộng rãi khi việc nhóm lồng nhau là tự nhiên hoặc mang tính thông tin, chẳng hạn như xây dựng các phân loại, sắp xếp bản đồ nhiệt biểu hiện gen và khám phá sự tương đồng của tài liệu hoặc sinh vật.

History

Các phương pháp nhóm phân cấp đã được chính thức hóa vào đầu những năm 1960, bao gồm tiêu chí phương sai tối thiểu của Ward, và trở thành yếu tố chủ yếu của phân loại số và phân tích dữ liệu thăm dò khi máy tính giúp việc xây dựng biểu đồ cây trở nên thường xuyên.

Debates

Lựa chọn liên kết
Liên kết đơn có thể xâu chuỗi các cụm lại với nhau trong khi liên kết hoàn chỉnh có xu hướng tạo ra các nhóm nhỏ gọn, và phương pháp của Ward ưu tiên các cụm hình cầu có kích thước bằng nhau, vì vậy việc lựa chọn liên kết ảnh hưởng mạnh mẽ đến kết quả và hiếm khi là duy nhất đúng.

Key figures

  • Joe Ward
  • Peter Rousseeuw

Related topics

Seminal works

  • everitt2011
  • kaufman1990
  • wardjr1963

Frequently asked questions

Sự khác biệt giữa phân cụm gom nhóm và phân chia là gì?
Phân cụm gom nhóm bắt đầu với mỗi đối tượng là một cụm riêng và hợp nhất lên trên, trong khi phân cụm phân chia bắt đầu với một cụm và chia tách xuống dưới; các phương pháp gom nhóm phổ biến hơn nhiều trong thực tế.
Làm cách nào để chọn số lượng cụm từ biểu đồ cây?
Bằng cách cắt cây ở một chiều cao đã chọn, thường là nơi chiều cao hợp nhất nhảy vọt mạnh, tương ứng với việc kết hợp các nhóm ít tương tự hơn nhiều so với các nhóm được hợp nhất bên dưới.

Methods for this concept

Related concepts