ScholarGate
Assistant

Analyse de classification hiérarchique

L'analyse de classification hiérarchique construit une séquence imbriquée de clusters, visualisée sous forme de dendrogramme, en fusionnant ou en divisant successivement des groupes selon un critère de liaison.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

L'analyse de classification hiérarchique est une approche de regroupement qui produit un arbre de partitions imbriquées en combinant itérativement les clusters les plus similaires, ou en divisant les moins cohésifs, selon une distance inter-clusters choisie.

Scope

Ce sujet couvre le regroupement hiérarchique agglomératif (ascendant) et divisif (descendant), les règles de liaison courantes telles que la liaison simple, complète, moyenne et la liaison de variance minimale de Ward, la construction et l'interprétation du dendrogramme, ainsi que la coupe de l'arbre pour obtenir une partition plate.

Core questions

  • Comment une famille imbriquée de classifications peut-elle être construite à partir de dissimilarités par paires ?
  • Comment les différentes règles de liaison façonnent-elles les clusters résultants ?
  • Comment le dendrogramme est-il lu et où doit-il être coupé ?
  • Quand une structure hiérarchique est-elle plus informative qu'une simple partition plate ?

Key theories

Fusion définie par la liaison
Le regroupement agglomératif fusionne de manière répétée les deux clusters les plus proches selon une définition de liaison ; les liaisons simple, complète, moyenne et de Ward encodent différentes notions de distance inter-clusters et produisent des formes de clusters caractéristiquement différentes.
Représentation par dendrogramme
La séquence des fusions est encodée sous forme de dendrogramme dont les hauteurs de fusion enregistrent la dissimilarité, permettant d'obtenir n'importe quel nombre de clusters en coupant l'arbre à une hauteur choisie.

Clinical relevance

Le regroupement hiérarchique est largement utilisé là où un regroupement imbriqué est naturel ou informatif, comme la construction de taxonomies, l'organisation de cartes thermiques d'expression génique et l'exploration de la similarité entre documents ou organismes.

History

Les méthodes de regroupement hiérarchique ont été formalisées au début des années 1960, y compris le critère de variance minimale de Ward, et sont devenues des piliers de la taxonomie numérique et de l'analyse exploratoire des données à mesure que l'informatique rendait la construction de dendrogrammes courante.

Debates

Choix de la liaison
La liaison simple peut enchaîner les clusters tandis que la liaison complète tend à produire des groupes compacts, et la méthode de Ward favorise les clusters sphériques de taille égale, de sorte que le choix de la liaison façonne fortement les résultats et est rarement la seule correcte.

Key figures

  • Joe Ward
  • Peter Rousseeuw

Related topics

Seminal works

  • everitt2011
  • kaufman1990
  • wardjr1963

Frequently asked questions

Quelle est la différence entre le regroupement agglomératif et le regroupement divisif ?
Le regroupement agglomératif commence avec chaque objet comme son propre cluster et fusionne vers le haut, tandis que le regroupement divisif commence avec un seul cluster et divise vers le bas ; les méthodes agglomératives sont beaucoup plus courantes en pratique.
Comment choisir le nombre de clusters à partir d'un dendrogramme ?
En coupant l'arbre à une hauteur choisie, souvent là où les hauteurs de fusion augmentent brusquement, ce qui correspond à la combinaison de groupes beaucoup moins similaires que ceux fusionnés en dessous.

Methods for this concept

Related concepts