¿En qué se diferencia el ACP del análisis factorial?

El ACP forma componentes como combinaciones lineales exactas que maximizan la varianza, sin un modelo de error explícito, mientras que el análisis factorial postula factores comunes latentes más ruido específico de la variable para explicar la covarianza compartida.

¿Deben estandarizarse las variables antes del ACP?

Cuando las variables están en diferentes escalas, es común estandarizarlas, lo que equivale a realizar el ACP sobre la matriz de correlación, para que ninguna variable única de alta varianza domine los componentes.

Análisis de Componentes Principales

El análisis de componentes principales (ACP) encuentra un conjunto ortogonal de variables derivadas, los componentes principales, que capturan sucesivamente la máxima varianza posible en un conjunto de datos multivariado.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El análisis de componentes principales es una transformación lineal ortogonal que reexpresa variables correlacionadas como componentes no correlacionados, ordenados de modo que el primer componente tiene la mayor varianza y cada componente sucesivo tiene la mayor varianza ortogonal a los precedentes.

Scope

Este tema cubre la definición de los componentes principales como vectores propios de la matriz de covarianza o correlación, su equivalencia con la mejor aproximación de mínimos cuadrados de bajo rango a través de la descomposición en valores singulares, la interpretación de las cargas y las puntuaciones, la elección del número de componentes y la distinción entre análisis basados en la covarianza y en la correlación.

Core questions

¿Qué combinaciones lineales de variables explican la mayor parte de la varianza?
¿Cuántos componentes se requieren para resumir los datos adecuadamente?
¿Cuándo debe basarse el análisis en la matriz de correlación en lugar de la de covarianza?
¿Cómo se interpretan las cargas y las puntuaciones de los componentes?

Key theories

Descomposición propia de la matriz de covarianza: Los componentes principales son los vectores propios de la matriz de covarianza, y la varianza explicada por cada componente es igual al valor propio correspondiente, lo que proporciona una descomposición ortogonal exacta de la varianza total.
Mejor aproximación de bajo rango: La proyección de datos sobre los ejes principales principales minimiza la suma de los errores de reconstrucción al cuadrado entre todos los subespacios de esa dimensión, la propiedad que Pearson formuló originalmente como líneas y planos de ajuste más cercano.

Clinical relevance

El ACP se utiliza ampliamente para la visualización, la eliminación de ruido, la compresión, el diagnóstico de multicolinealidad y como un paso de preprocesamiento que produce características no correlacionadas para la regresión y la clasificación.

History

Pearson introdujo la idea geométrica de líneas y planos de mejor ajuste en 1901; Hotelling desarrolló y nombró independientemente los componentes principales como una técnica estadística en 1933. El método se unificó más tarde con la descomposición en valores singulares, que proporciona su implementación numérica estándar.

Debates

Elección del número de componentes: Las reglas como retener componentes con valores propios superiores a uno, inspeccionar el gráfico de sedimentación (scree plot) o fijar un umbral de varianza acumulada pueden discrepar, y ningún criterio único es universalmente aceptado.

Key figures

Karl Pearson
Harold Hotelling

Seminal works

pearson1901
hotelling1933
jolliffe2002

Frequently asked questions

¿En qué se diferencia el ACP del análisis factorial?: El ACP forma componentes como combinaciones lineales exactas que maximizan la varianza, sin un modelo de error explícito, mientras que el análisis factorial postula factores comunes latentes más ruido específico de la variable para explicar la covarianza compartida.
¿Deben estandarizarse las variables antes del ACP?: Cuando las variables están en diferentes escalas, es común estandarizarlas, lo que equivale a realizar el ACP sobre la matriz de correlación, para que ninguna variable única de alta varianza domine los componentes.