Que calcule réellement l'analyse en composantes principales ?

Elle trouve de nouveaux axes, les composantes principales, qui sont des directions orthogonales ordonnées selon la quantité de variance des données qu'elles capturent. La conservation des quelques premières composantes offre la meilleure approximation linéaire de faible dimension des données au sens des moindres carrés.

Pourquoi réduire les dimensions au lieu d'utiliser toutes les caractéristiques ?

En hautes dimensions, les données deviennent éparses et les distances moins significatives, les modèles surapprennent plus facilement et les calculs ralentissent. La réduction à quelques coordonnées informatives peut améliorer la généralisation, la vitesse et la capacité à visualiser et interpréter les données.

Réduction de dimensionnalité

La réduction de dimensionnalité représente des données de haute dimension avec un petit nombre de coordonnées qui préservent leur structure la plus importante, facilitant la visualisation, la compression et l'apprentissage ultérieur.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La réduction de dimensionnalité projette des données d'un espace de haute dimension vers un espace de dimension inférieure tout en conservant autant d'informations pertinentes que possible, soit par projection linéaire sur des directions de variance maximale, soit par des intégrations non linéaires qui respectent la variété sous-jacente des données.

Scope

Ce sujet couvre les méthodes linéaires telles que l'analyse en composantes principales et l'analyse factorielle qui identifient les directions de plus grande variance, ainsi que les méthodes non linéaires d'apprentissage de variétés (manifold learning) et d'intégration (embedding) qui révèlent une structure courbe de faible dimension. Il aborde la malédiction de la dimensionnalité, l'erreur de reconstruction et le compromis entre la préservation de la géométrie globale et des voisinages locaux.

Core questions

Comment de nombreuses caractéristiques corrélées peuvent-elles être résumées par quelques-unes ?
Qu'optimise l'analyse en composantes principales ?
Comment les méthodes non linéaires récupèrent-elles les variétés courbes ?
Quelles informations sont perdues et comment cette perte est-elle mesurée ?

Key theories

Analyse en composantes principales: L'analyse en composantes principales projette les données sur les directions orthogonales de plus grande variance, offrant la meilleure approximation linéaire de faible dimension au sens des moindres carrés et révélant les schémas de variation dominants.
Modèles linéaires latents probabilistes: L'analyse en composantes principales probabiliste et l'analyse factorielle conçoivent la réduction de dimensionnalité comme un modèle à variables latentes, offrant une interprétation générative et une approche rigoureuse pour gérer le bruit et les données manquantes.
Apprentissage de variétés (Manifold learning): Les méthodes non linéaires supposent que les données se situent près d'une variété de faible dimension et construisent des intégrations qui préservent les relations de voisinage locales, capturant une structure que les projections linéaires ne peuvent pas.

Clinical relevance

La réduction de dimensionnalité est utilisée pour visualiser des ensembles de données complexes, pour compresser et débruiter des signaux, et pour produire des caractéristiques compactes qui rendent l'apprentissage ultérieur plus rapide et moins sujet au surapprentissage (overfitting) ; elle aborde directement la malédiction de la dimensionnalité, où les distances et les densités deviennent non informatives à mesure que le nombre de caractéristiques augmente.

History

L'analyse en composantes principales a été introduite par Pearson et développée par Hotelling au début du XXe siècle. L'analyse factorielle est apparue en psychométrie, et à partir du début des années 2000, les méthodes non linéaires d'apprentissage de variétés (manifold learning) et d'intégration de voisinages (neighbor-embedding) ont étendu la réduction de dimensionnalité aux données avec une structure courbe de faible dimension, devenant des outils standards pour la visualisation de haute dimension.

Key figures

Karl Pearson
Harold Hotelling
Trevor Hastie

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

Que calcule réellement l'analyse en composantes principales ?: Elle trouve de nouveaux axes, les composantes principales, qui sont des directions orthogonales ordonnées selon la quantité de variance des données qu'elles capturent. La conservation des quelques premières composantes offre la meilleure approximation linéaire de faible dimension des données au sens des moindres carrés.
Pourquoi réduire les dimensions au lieu d'utiliser toutes les caractéristiques ?: En hautes dimensions, les données deviennent éparses et les distances moins significatives, les modèles surapprennent plus facilement et les calculs ralentissent. La réduction à quelques coordonnées informatives peut améliorer la généralisation, la vitesse et la capacité à visualiser et interpréter les données.