ScholarGate
Assistant

Analyse de grappes

L'analyse de grappes regroupe des observations multivariées en grappes de sorte que les membres d'une grappe soient plus similaires les uns aux autres qu'aux membres d'autres grappes, sans étiquettes prédéfinies.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

L'analyse de grappes est le partitionnement non supervisé ou l'organisation hiérarchique d'objets en groupes basée sur une mesure de similarité ou de dissemblance, les groupes étant découverts à partir des données plutôt que spécifiés à l'avance.

Scope

Ce domaine couvre le regroupement non supervisé de données. Il inclut les méthodes hiérarchiques qui construisent un arbre de grappes imbriquées, les méthodes de partitionnement telles que k-means qui optimisent un critère intra-grappe pour un nombre fixe de grappes, et les méthodes basées sur des modèles qui traitent les grappes comme des composantes d'une distribution de mélange. Il aborde également le choix de la distance, de la liaison et du nombre de grappes, ainsi que la validation des solutions de regroupement.

Sub-topics

Core questions

  • Comment les regroupements naturels peuvent-ils être découverts dans des données multivariées non étiquetées ?
  • Comment la similarité et la dissemblance sont-elles définies pour les objets ?
  • Combien de grappes sont présentes et comment ce nombre est-il choisi ?
  • Comment une solution de regroupement est-elle validée et interprétée ?

Key theories

Regroupement basé sur la distance
La plupart des méthodes de regroupement reposent sur une mesure de dissemblance entre les objets et une règle, telle qu'une liaison ou une somme des carrés intra-grappe, qui transforme ces dissemblances en groupes.
Approche des grappes basée sur les modèles de mélange
Le regroupement basé sur des modèles considère chaque grappe comme une composante d'un mélange de probabilités, de sorte que le regroupement devient une estimation de paramètres et le nombre de grappes un problème de sélection de modèle.

Clinical relevance

L'analyse de grappes est utilisée pour découvrir des structures dans des données non étiquetées dans divers domaines, y compris la segmentation du marché, la taxonomie, le regroupement d'expressions géniques, la segmentation d'images et l'identification de sous-types de patients.

History

Le regroupement numérique est né de la taxonomie numérique du milieu du XXe siècle et a été systématisé en algorithmes hiérarchiques et de partitionnement. Le regroupement probabiliste basé sur des modèles, construit sur des modèles de mélange finis et l'algorithme espérance-maximisation, a ensuite établi le domaine sur une base de vraisemblance.

Debates

Détermination du nombre de grappes
Il n'existe pas de méthode unique et consensuelle pour choisir le nombre de grappes ; les critères vont des statistiques de l'écart et des largeurs de silhouette aux critères d'information pour les modèles de mélange, et ils peuvent être en désaccord.

Key figures

  • Leonard Kaufman
  • Peter Rousseeuw
  • Brian Everitt

Related topics

Seminal works

  • everitt2011
  • kaufman1990
  • hastie2009

Frequently asked questions

En quoi le regroupement diffère-t-il de la classification ?
Le regroupement est non supervisé et découvre des groupes à partir de données non étiquetées, tandis que la classification est supervisée et attribue des observations à des groupes connus et étiquetés à l'avance.
Le regroupement trouve-t-il toujours des groupes significatifs ?
Non. Les algorithmes de regroupement partitionneront n'importe quel ensemble de données, de sorte que les solutions doivent être validées et interprétées ; les grappes apparentes peuvent refléter le choix de la méthode ou de la distance plutôt qu'une structure véritable.

Methods for this concept

Related concepts