ScholarGate
Ассистент

Иерархический кластерный анализ

Иерархический кластерный анализ строит вложенную последовательность кластеров, визуализируемую в виде дендрограммы, путем последовательного объединения или разделения групп в соответствии с критерием связи.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Иерархический кластерный анализ — это подход к кластеризации, который создает дерево вложенных разбиений путем итеративного объединения наиболее похожих кластеров или разделения наименее когезивных в соответствии с выбранным расстоянием между кластерами.

Scope

Эта тема охватывает агломеративную (восходящую) и дивизимную (нисходящую) иерархическую кластеризацию, общие правила связи, такие как одиночная, полная, средняя и связь Уорда с минимальной дисперсией, построение и интерпретацию дендрограммы, а также обрезку дерева для получения плоского разбиения.

Core questions

  • Как можно построить вложенное семейство кластеризаций на основе попарных несходств?
  • Как различные правила связи формируют результирующие кластеры?
  • Как читать дендрограмму и где ее следует обрезать?
  • Когда иерархическая структура более информативна, чем одно плоское разбиение?

Key theories

Объединение, определяемое связью
Агломеративная кластеризация многократно объединяет два кластера, которые являются наиболее близкими согласно определению связи; одиночная, полная, средняя связи и связь Уорда кодируют различные понятия расстояния между кластерами и производят характерно разные формы кластеров.
Представление дендрограммы
Последовательность объединений кодируется в виде дендрограммы, высоты объединений которой фиксируют несходство, что позволяет получить любое количество кластеров путем обрезки дерева на выбранной высоте.

Clinical relevance

Иерархическая кластеризация широко используется там, где вложенная группировка является естественной или информативной, например, при построении таксономий, организации тепловых карт экспрессии генов и исследовании сходства документов или организмов.

History

Методы иерархической группировки были формализованы в начале 1960-х годов, включая критерий минимальной дисперсии Уорда, и стали основными элементами численной таксономии и разведочного анализа данных, поскольку вычисления сделали построение дендрограмм рутинным.

Debates

Выбор связи
Одиночная связь может объединять кластеры в цепочки, тогда как полная связь имеет тенденцию создавать компактные группы, а метод Уорда предпочитает сферические кластеры одинакового размера, поэтому выбор связи сильно влияет на результаты и редко бывает однозначно правильным.

Key figures

  • Joe Ward
  • Peter Rousseeuw

Related topics

Seminal works

  • everitt2011
  • kaufman1990
  • wardjr1963

Frequently asked questions

В чем разница между агломеративной и дивизимной кластеризацией?
Агломеративная кластеризация начинается с каждого объекта как отдельного кластера и объединяется вверх, тогда как дивизимная кластеризация начинается с одного кластера и разделяется вниз; агломеративные методы гораздо более распространены на практике.
Как выбрать количество кластеров из дендрограммы?
Путем обрезки дерева на выбранной высоте, часто там, где высоты объединений резко возрастают, что соответствует объединению групп, которые гораздо менее похожи, чем те, что были объединены ниже.

Methods for this concept

Related concepts