Análise de Cluster Hierárquico
A análise de cluster hierárquico constrói uma sequência aninhada de clusters, visualizada como um dendrograma, mesclando ou dividindo grupos sucessivamente de acordo com um critério de ligação.
Definition
A análise de cluster hierárquico é uma abordagem de agrupamento que produz uma árvore de partições aninhadas, combinando iterativamente os clusters mais semelhantes ou dividindo os menos coesos, de acordo com uma distância escolhida entre os clusters.
Scope
Este tópico abrange o agrupamento hierárquico aglomerativo (bottom-up) e divisivo (top-down), as regras de ligação comuns, como ligação simples, completa, média e de variância mínima de Ward, a construção e interpretação do dendrograma e o corte da árvore para obter uma partição plana.
Core questions
- Como uma família aninhada de agrupamentos pode ser construída a partir de dissimilaridades pareadas?
- Como diferentes regras de ligação moldam os clusters resultantes?
- Como o dendrograma é lido e onde deve ser cortado?
- Quando uma estrutura hierárquica é mais informativa do que uma única partição plana?
Key theories
- Fusão definida por ligação
- O agrupamento aglomerativo mescla repetidamente os dois clusters mais próximos sob uma definição de ligação; as ligações simples, completa, média e de Ward codificam diferentes noções de distância entre clusters e produzem formas de cluster caracteristicamente diferentes.
- Representação de dendrograma
- A sequência de fusões é codificada como um dendrograma cujas alturas de fusão registram a dissimilaridade, permitindo que qualquer número de clusters seja obtido cortando a árvore em uma altura escolhida.
Clinical relevance
O agrupamento hierárquico é amplamente utilizado onde um agrupamento aninhado é natural ou informativo, como na construção de taxonomias, organização de mapas de calor de expressão gênica e exploração da similaridade de documentos ou organismos.
History
Os métodos de agrupamento hierárquico foram formalizados no início da década de 1960, incluindo o critério de variância mínima de Ward, e tornaram-se pilares da taxonomia numérica e da análise exploratória de dados à medida que a computação tornou a construção de dendrogramas rotineira.
Debates
- Escolha da ligação
- A ligação simples pode encadear clusters, enquanto a ligação completa tende a produzir grupos compactos, e o método de Ward favorece clusters esféricos de tamanho igual, de modo que a escolha da ligação molda fortemente os resultados e raramente é unicamente correta.
Key figures
- Joe Ward
- Peter Rousseeuw
Related topics
Seminal works
- everitt2011
- kaufman1990
- wardjr1963
Frequently asked questions
- Qual é a diferença entre agrupamento aglomerativo e divisivo?
- O agrupamento aglomerativo começa com cada objeto como seu próprio cluster e se mescla para cima, enquanto o agrupamento divisivo começa com um cluster e se divide para baixo; os métodos aglomerativos são muito mais comuns na prática.
- Como escolho o número de clusters de um dendrograma?
- Cortando a árvore em uma altura escolhida, muitas vezes onde as alturas de fusão saltam bruscamente, o que corresponde a combinar grupos que são muito menos semelhantes do que aqueles mesclados abaixo.