Agrupamiento de K-medias
El agrupamiento de K-medias divide las observaciones en un número fijo de clústeres minimizando la suma total de las distancias cuadradas dentro del clúster a los centroides del clúster.
Definition
El agrupamiento de K-medias es un método de partición que establece un número prescrito de centros de clúster y asigna cada observación a su centro más cercano para minimizar la distancia euclidiana cuadrada total de las observaciones a sus centros asignados.
Scope
Este tema cubre el objetivo de la suma de cuadrados dentro del clúster, el algoritmo iterativo de asignación y actualización que alterna entre asignar puntos al centroide más cercano y recalcular los centroides, la dependencia de la inicialización y los óptimos locales resultantes, la elección del número de clústeres y los supuestos y limitaciones del método.
Core questions
- ¿Cómo se pueden particionar las observaciones para minimizar la dispersión dentro del clúster?
- ¿Por qué el algoritmo converge solo a un óptimo local y cómo se mitiga esto?
- ¿Cómo se elige el número de clústeres?
- ¿Qué formas y escalas de clústeres asume implícitamente el método?
Key theories
- Minimización de la suma de cuadrados dentro del clúster
- K-medias busca la partición y el conjunto de centroides que minimizan la distancia cuadrada total de los puntos a sus centros de clúster, un objetivo para el cual la iteración alterna de asignación-actualización disminuye monótonamente el criterio.
- Sensibilidad al óptimo local
- Debido a que el objetivo no es convexo, el algoritmo converge a un mínimo local que depende de los centros iniciales, lo que motiva múltiples reinicios y una siembra cuidadosa.
Clinical relevance
K-medias es un método rápido y escalable por defecto para particionar grandes conjuntos de datos y se utiliza en la cuantificación vectorial, la reducción de color de imágenes, la segmentación de clientes y como inicialización para modelos más complejos.
History
La idea de partición basada en centroides fue formalizada por MacQueen, quien nombró k-medias en 1967, basándose en el algoritmo de cuantificación anterior de Lloyd. Se convirtió en uno de los métodos de agrupamiento más utilizados debido a su simplicidad y velocidad.
Debates
- Supuestos implícitos de k-medias
- La minimización de la distancia euclidiana cuadrada favorece clústeres aproximadamente esféricos y de tamaño similar, por lo que k-medias puede inducir a error cuando los clústeres son alargados, de tamaño desigual o no convexos, lo que motiva alternativas basadas en modelos o en la densidad.
Key figures
- James MacQueen
- Stuart Lloyd
Related topics
Seminal works
- hastie2009
- everitt2011
- macqueen1967
Frequently asked questions
- ¿Por qué k-medias da resultados diferentes en distintas ejecuciones?
- Su objetivo no es convexo, por lo que el algoritmo converge a un óptimo local que depende de los centros iniciales aleatorios; ejecutarlo varias veces y mantener el mejor resultado es una práctica estándar.
- ¿Cómo elijo el número de clústeres k?
- Las heurísticas comunes incluyen el codo en la suma de cuadrados dentro del clúster, la estadística de la brecha y el ancho promedio de la silueta, aunque ninguna es definitiva y el conocimiento del dominio a menudo guía la elección.