En realidad, ¿qué calcula el análisis de componentes principales?

Encuentra nuevos ejes, los componentes principales, que son direcciones ortogonales ordenadas por la cantidad de varianza de los datos que capturan. Mantener los primeros componentes proporciona la mejor aproximación lineal de baja dimensión de los datos en el sentido de mínimos cuadrados.

¿Por qué reducir las dimensiones en lugar de usar todas las características?

En altas dimensiones, los datos se vuelven dispersos y las distancias menos significativas, los modelos se sobreajustan más fácilmente y el cálculo se ralentiza. La reducción a unas pocas coordenadas informativas puede mejorar la generalización, la velocidad y la capacidad de visualizar e interpretar los datos.

Reducción de Dimensionalidad

La reducción de dimensionalidad representa datos de alta dimensión con un número pequeño de coordenadas que preservan su estructura más importante, lo que facilita la visualización, la compresión y el aprendizaje posterior.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La reducción de dimensionalidad mapea datos de un espacio de alta dimensión a uno de menor dimensión, conservando la mayor cantidad posible de información relevante, ya sea mediante proyección lineal sobre direcciones de varianza máxima o mediante incrustaciones no lineales que respetan la variedad subyacente de los datos.

Scope

Este tema abarca métodos lineales como el análisis de componentes principales y el análisis factorial que encuentran direcciones de mayor varianza, y métodos no lineales de aprendizaje de variedades e incrustación que descubren estructuras curvas de baja dimensión. Aborda la maldición de la dimensionalidad, el error de reconstrucción y la compensación entre preservar la geometría global y las vecindades locales.

Core questions

¿Cómo se pueden resumir muchas características correlacionadas con unas pocas?
¿Qué optimiza el análisis de componentes principales?
¿Cómo recuperan los métodos no lineales las variedades curvas?
¿Qué información se pierde y cómo se mide esa pérdida?

Key theories

Análisis de componentes principales: El análisis de componentes principales proyecta los datos sobre las direcciones ortogonales de mayor varianza, proporcionando la mejor aproximación lineal de baja dimensión en el sentido de mínimos cuadrados y revelando patrones dominantes de variación.
Modelos lineales latentes probabilísticos: El análisis de componentes principales probabilístico y el análisis factorial enmarcan la reducción de dimensionalidad como un modelo de variable latente, proporcionando una interpretación generativa y una forma fundamentada de manejar el ruido y los datos faltantes.
Aprendizaje de variedades: Los métodos no lineales asumen que los datos se encuentran cerca de una variedad de baja dimensión y construyen incrustaciones que preservan las relaciones de vecindad local, capturando una estructura que las proyecciones lineales no pueden.

Clinical relevance

La reducción de dimensionalidad se utiliza para visualizar conjuntos de datos complejos, para comprimir y eliminar el ruido de las señales, y para producir características compactas que hacen que el aprendizaje posterior sea más rápido y menos propenso al sobreajuste; aborda directamente la maldición de la dimensionalidad, en la que las distancias y densidades se vuelven poco informativas a medida que crece el número de características.

History

El análisis de componentes principales fue introducido por Pearson y desarrollado por Hotelling a principios del siglo XX. El análisis factorial surgió en la psicometría, y desde principios de la década de 2000, los métodos no lineales de aprendizaje de variedades y de incrustación de vecinos extendieron la reducción de dimensionalidad a datos con estructuras curvas de baja dimensión, convirtiéndose en herramientas estándar para la visualización de alta dimensionalidad.

Key figures

Karl Pearson
Harold Hotelling
Trevor Hastie

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

En realidad, ¿qué calcula el análisis de componentes principales?: Encuentra nuevos ejes, los componentes principales, que son direcciones ortogonales ordenadas por la cantidad de varianza de los datos que capturan. Mantener los primeros componentes proporciona la mejor aproximación lineal de baja dimensión de los datos en el sentido de mínimos cuadrados.
¿Por qué reducir las dimensiones en lugar de usar todas las características?: En altas dimensiones, los datos se vuelven dispersos y las distancias menos significativas, los modelos se sobreajustan más fácilmente y el cálculo se ralentiza. La reducción a unas pocas coordenadas informativas puede mejorar la generalización, la velocidad y la capacidad de visualizar e interpretar los datos.