Reducción de la Dimensión
La reducción de la dimensión comprende los métodos multivariados que resumen muchas variables correlacionadas con un pequeño número de cantidades derivadas, preservando la mayor estructura posible a la vez que facilitan la interpretación y la visualización.
Definition
La reducción de la dimensión es la construcción de una representación de menor dimensión de datos multivariados que retiene un criterio de información elegido, como la varianza, el error de reconstrucción, la distancia por pares o la correlación entre conjuntos.
Scope
Esta área abarca técnicas que mapean observaciones de alta dimensión a un espacio de menor dimensión. Incluye proyecciones lineales que maximizan la varianza (análisis de componentes principales), modelos de factores latentes para covarianza compartida (análisis factorial), incrustaciones que preservan la distancia (escalamiento multidimensional) y métodos que reducen dos conjuntos de variables conjuntamente maximizando la correlación cruzada (análisis de correlación canónica). El énfasis está en los enfoques lineales y clásicos que forman la base de la disciplina; el aprendizaje no lineal de variedades se trata como una extensión.
Sub-topics
Core questions
- ¿Cómo se puede reemplazar un gran conjunto de mediciones correlacionadas por unas pocas variables derivadas no correlacionadas con una pérdida mínima de información?
- ¿Cuándo la preservación de la varianza, la preservación de la distancia o la explicación de factores latentes deben ser el criterio de reducción?
- ¿Cuántas dimensiones se necesitan para representar adecuadamente los datos?
- ¿Cómo apoyan las representaciones reducidas la visualización, la eliminación de ruido y el modelado posterior?
Key theories
- Proyección lineal que maximiza la varianza
- Los ejes principales principales son las direcciones ortonormales que capturan sucesivamente la varianza máxima, equivalentes a los vectores propios de la matriz de covarianza y a la mejor aproximación de mínimos cuadrados de bajo rango de los datos.
- Modelo de factor común latente
- Las correlaciones observadas entre variables se explican por un número menor de factores comunes no observados más la unicidad específica de la variable, descomponiendo la estructura de covarianza en partes compartidas y únicas.
Clinical relevance
La reducción de la dimensión sustenta el análisis exploratorio de datos, la visualización de datos, la eliminación de ruido de señales, la compresión y el preprocesamiento de características para la regresión y la clasificación en campos que van desde la genómica hasta la econometría y el análisis de imágenes.
History
La visión de maximización de la varianza se originó con la formulación geométrica de Pearson de 1901 de líneas y planos de mejor ajuste, y fue desarrollada en el método estadístico moderno de componentes principales por Hotelling en 1933. El análisis factorial creció en paralelo desde la psicometría, y el escalamiento basado en la distancia y la correlación canónica le siguieron, consolidándose en el tratamiento unificado de la reducción de la dimensión que se encuentra en los textos multivariados de mediados del siglo XX.
Key figures
- Karl Pearson
- Harold Hotelling
Related topics
Seminal works
- pearson1901
- mardia1979
- johnson2007
Frequently asked questions
- ¿Cuál es la diferencia entre la reducción de la dimensión y la selección de variables?
- La selección de variables mantiene un subconjunto de las variables originales, mientras que la reducción de la dimensión típicamente construye nuevas variables derivadas (como componentes o factores) que son combinaciones de todas las originales.
- ¿La reducción de la dimensión es siempre lineal?
- No. Los métodos centrales clásicos son lineales, pero los mismos objetivos se persiguen mediante técnicas no lineales de aprendizaje y incrustación de variedades; los métodos lineales siguen siendo fundamentales e interpretables.