Análisis de conglomerados
El análisis de conglomerados agrupa observaciones multivariadas en conglomerados de modo que los miembros de un conglomerado son más similares entre sí que a los miembros de otros conglomerados, sin etiquetas predefinidas.
Definition
El análisis de conglomerados es la partición no supervisada o la organización jerárquica de objetos en grupos basada en una medida de similitud o disimilitud, con los grupos descubiertos a partir de los datos en lugar de especificados de antemano.
Scope
Esta área cubre la agrupación no supervisada de datos. Incluye métodos jerárquicos que construyen un árbol anidado de conglomerados, métodos de partición como k-means que optimizan un criterio dentro del conglomerado para un número fijo de conglomerados, y métodos basados en modelos que tratan los conglomerados como componentes de una distribución de mezcla. También aborda la elección de la distancia, el enlace y el número de conglomerados, y la validación de las soluciones de agrupación.
Sub-topics
Core questions
- ¿Cómo se pueden descubrir agrupaciones naturales en datos multivariados no etiquetados?
- ¿Cómo se definen la similitud y la disimilitud para los objetos?
- ¿Cuántos conglomerados están presentes y cómo se elige ese número?
- ¿Cómo se valida e interpreta una solución de agrupación?
Key theories
- Agrupación basada en la distancia
- La mayoría de los métodos de agrupación se basan en una medida de disimilitud entre objetos y una regla, como un enlace o una suma de cuadrados dentro del conglomerado, que convierte esas disimilitudes en grupos.
- Visión de los conglomerados como modelos de mezcla
- La agrupación basada en modelos considera cada conglomerado como un componente de una mezcla de probabilidad, de modo que la agrupación se convierte en estimación de parámetros y el número de conglomerados se convierte en un problema de selección de modelos.
Clinical relevance
El análisis de conglomerados se utiliza para descubrir la estructura en datos no etiquetados en diversos campos, incluyendo la segmentación de mercados, la taxonomía, la agrupación de expresión génica, la segmentación de imágenes y la identificación de subtipos de pacientes.
History
La agrupación numérica surgió de la taxonomía numérica de mediados del siglo XX y se sistematizó en algoritmos jerárquicos y de partición. La agrupación probabilística basada en modelos, construida sobre modelos de mezcla finita y el algoritmo de expectativa-maximización, posteriormente colocó el campo sobre una base de verosimilitud.
Debates
- Determinación del número de conglomerados
- No existe un método único acordado para elegir el número de conglomerados; los criterios van desde estadísticas de brecha y anchos de silueta hasta criterios de información para modelos de mezcla, y pueden discrepar.
Key figures
- Leonard Kaufman
- Peter Rousseeuw
- Brian Everitt
Related topics
Seminal works
- everitt2011
- kaufman1990
- hastie2009
Frequently asked questions
- ¿En qué se diferencia la agrupación de la clasificación?
- La agrupación es no supervisada y descubre grupos a partir de datos no etiquetados, mientras que la clasificación es supervisada y asigna observaciones a grupos que se conocen y etiquetan de antemano.
- ¿La agrupación siempre encuentra grupos significativos?
- No. Los algoritmos de agrupación particionarán cualquier conjunto de datos, por lo que las soluciones deben validarse e interpretarse; los conglomerados aparentes pueden reflejar el método o la elección de la distancia en lugar de una estructura genuina.