Algoritmos de Agrupamiento (Clustering)
Los algoritmos de agrupamiento (clustering) dividen los datos en grupos de elementos similares, revelando una estructura natural sin utilizar etiquetas.
Definition
El agrupamiento (clustering) es la partición no supervisada de un conjunto de datos en grupos tales que los puntos dentro de un grupo son más similares entre sí que a los puntos de otros grupos, donde la similitud se define por un criterio de distancia o densidad elegido para la aplicación.
Scope
Este tema abarca las principales familias de agrupamiento: métodos basados en centroides como k-means, agrupamiento jerárquico aglomerativo que construye un árbol de grupos anidados, métodos basados en densidad que encuentran clústeres de forma arbitraria, y la elección de medidas de distancia y el número de clústeres. Aborda qué constituye un buen agrupamiento y por qué el problema es inherentemente ambiguo.
Core questions
- ¿Qué hace que un conjunto de puntos sea un clúster?
- ¿Cómo minimiza k-means iterativamente la varianza dentro del clúster?
- ¿Cómo se elige el número de clústeres?
- ¿Cuándo superan los métodos jerárquicos o basados en densidad a los métodos de centroides?
Key theories
- k-means y el algoritmo de Lloyd
- k-means minimiza la distancia cuadrática total a los centros de los clústeres alternando la asignación de puntos a los centros más cercanos y el recálculo de los centros, un procedimiento que converge a un óptimo local.
- Agrupamiento jerárquico
- El agrupamiento aglomerativo fusiona repetidamente los grupos más cercanos para construir un dendrograma, lo que proporciona agrupamientos en cada granularidad y evita la necesidad de fijar el número de clústeres de antemano.
- Agrupamiento de modelos de mezcla
- Tratar los clústeres como componentes de una mezcla probabilística permite asignaciones suaves y clústeres de diferente forma y tamaño, conectando el agrupamiento con la estimación de densidad de variables latentes.
Clinical relevance
El agrupamiento subyace a la segmentación de mercado, la organización de documentos e imágenes, la agrupación de expresión génica y la detección de anomalías, y es una herramienta principal del análisis exploratorio de datos; debido a que los agrupamientos dependen de la distancia elegida y del número de grupos, los resultados deben interpretarse con cuidado en lugar de tratarse como una verdad fundamental única.
History
El procedimiento k-means se remonta al trabajo de cuantificación de Lloyd de 1957, publicado en 1982, y a la formulación independiente de MacQueen. El agrupamiento jerárquico surgió en la taxonomía numérica, y los métodos basados en densidad como DBSCAN extendieron el agrupamiento a grupos de forma arbitraria, formando juntos el conjunto de herramientas estándar de agrupamiento no supervisado.
Key figures
- Stuart Lloyd
- James MacQueen
- Trevor Hastie
Related topics
Seminal works
- lloyd1982
- hastie2009
- bishop2006
Frequently asked questions
- ¿Por qué k-means requiere elegir el número de clústeres?
- k-means optimiza la ubicación de un número fijo de centros, por lo que ese número es una entrada. Su elección se basa en heurísticas como el método del codo, las puntuaciones de silueta o el conocimiento del dominio, ya que añadir más clústeres siempre reduce la distancia dentro del clúster.
- ¿Pueden diferentes métodos de agrupamiento dar respuestas diferentes?
- Sí. Debido a que no existe una definición única de clúster, los métodos basados en centroides, jerárquicos y basados en densidad pueden producir diferentes particiones de los mismos datos, cada una válida bajo su propio criterio. La elección correcta depende de las formas de clúster esperadas y del objetivo.