¿Por qué k-medias da resultados diferentes en distintas ejecuciones?

Su objetivo no es convexo, por lo que el algoritmo converge a un óptimo local que depende de los centros iniciales aleatorios; ejecutarlo varias veces y mantener el mejor resultado es una práctica estándar.

¿Cómo elijo el número de clústeres k?

Las heurísticas comunes incluyen el codo en la suma de cuadrados dentro del clúster, la estadística de la brecha y el ancho promedio de la silueta, aunque ninguna es definitiva y el conocimiento del dominio a menudo guía la elección.

Agrupamiento de K-medias

El agrupamiento de K-medias divide las observaciones en un número fijo de clústeres minimizando la suma total de las distancias cuadradas dentro del clúster a los centroides del clúster.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El agrupamiento de K-medias es un método de partición que establece un número prescrito de centros de clúster y asigna cada observación a su centro más cercano para minimizar la distancia euclidiana cuadrada total de las observaciones a sus centros asignados.

Scope

Este tema cubre el objetivo de la suma de cuadrados dentro del clúster, el algoritmo iterativo de asignación y actualización que alterna entre asignar puntos al centroide más cercano y recalcular los centroides, la dependencia de la inicialización y los óptimos locales resultantes, la elección del número de clústeres y los supuestos y limitaciones del método.

Core questions

¿Cómo se pueden particionar las observaciones para minimizar la dispersión dentro del clúster?
¿Por qué el algoritmo converge solo a un óptimo local y cómo se mitiga esto?
¿Cómo se elige el número de clústeres?
¿Qué formas y escalas de clústeres asume implícitamente el método?

Key theories

Minimización de la suma de cuadrados dentro del clúster: K-medias busca la partición y el conjunto de centroides que minimizan la distancia cuadrada total de los puntos a sus centros de clúster, un objetivo para el cual la iteración alterna de asignación-actualización disminuye monótonamente el criterio.
Sensibilidad al óptimo local: Debido a que el objetivo no es convexo, el algoritmo converge a un mínimo local que depende de los centros iniciales, lo que motiva múltiples reinicios y una siembra cuidadosa.

Clinical relevance

K-medias es un método rápido y escalable por defecto para particionar grandes conjuntos de datos y se utiliza en la cuantificación vectorial, la reducción de color de imágenes, la segmentación de clientes y como inicialización para modelos más complejos.

History

La idea de partición basada en centroides fue formalizada por MacQueen, quien nombró k-medias en 1967, basándose en el algoritmo de cuantificación anterior de Lloyd. Se convirtió en uno de los métodos de agrupamiento más utilizados debido a su simplicidad y velocidad.

Debates

Supuestos implícitos de k-medias: La minimización de la distancia euclidiana cuadrada favorece clústeres aproximadamente esféricos y de tamaño similar, por lo que k-medias puede inducir a error cuando los clústeres son alargados, de tamaño desigual o no convexos, lo que motiva alternativas basadas en modelos o en la densidad.

Key figures

James MacQueen
Stuart Lloyd

Seminal works

hastie2009
everitt2011
macqueen1967

Frequently asked questions

¿Por qué k-medias da resultados diferentes en distintas ejecuciones?: Su objetivo no es convexo, por lo que el algoritmo converge a un óptimo local que depende de los centros iniciales aleatorios; ejecutarlo varias veces y mantener el mejor resultado es una práctica estándar.
¿Cómo elijo el número de clústeres k?: Las heurísticas comunes incluyen el codo en la suma de cuadrados dentro del clúster, la estadística de la brecha y el ancho promedio de la silueta, aunque ninguna es definitiva y el conocimiento del dominio a menudo guía la elección.