ScholarGate
Assistant

Analyse en Composantes Principales

L'analyse en composantes principales (ACP) identifie un ensemble orthogonal de variables dérivées, appelées composantes principales, qui capturent successivement la variance maximale possible dans un ensemble de données multivariées.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

L'analyse en composantes principales est une transformation linéaire orthogonale qui reformule des variables corrélées en composantes non corrélées, ordonnées de manière à ce que la première composante présente la variance la plus élevée et que chaque composante successive ait la variance la plus grande orthogonale aux précédentes.

Scope

Ce sujet aborde la définition des composantes principales comme vecteurs propres de la matrice de covariance ou de corrélation, leur équivalence à la meilleure approximation de rang faible par moindres carrés via la décomposition en valeurs singulières, l'interprétation des poids (loadings) et des scores, le choix du nombre de composantes, et la distinction entre les analyses basées sur la covariance et celles basées sur la corrélation.

Core questions

  • Quelles combinaisons linéaires de variables expliquent la plus grande part de variance ?
  • Combien de composantes sont nécessaires pour résumer adéquatement les données ?
  • Quand l'analyse devrait-elle être basée sur la matrice de corrélation plutôt que sur la matrice de covariance ?
  • Comment les poids (loadings) et les scores des composantes sont-ils interprétés ?

Key theories

Décomposition en valeurs propres de la matrice de covariance
Les composantes principales sont les vecteurs propres de la matrice de covariance, et la variance expliquée par chaque composante est égale à la valeur propre correspondante, offrant ainsi une décomposition orthogonale exacte de la variance totale.
Meilleure approximation de rang faible
La projection des données sur les axes principaux dominants minimise la somme des erreurs de reconstruction au carré parmi tous les sous-espaces de cette dimension, une propriété que Pearson avait initialement formulée comme des droites et des plans de meilleur ajustement.

Clinical relevance

L'ACP est largement utilisée pour la visualisation, la réduction du bruit (denoising), la compression, le diagnostic de multicolinéarité, et comme étape de prétraitement produisant des caractéristiques non corrélées pour la régression et la classification.

History

Pearson a introduit l'idée géométrique des droites et plans de meilleur ajustement en 1901 ; Hotelling a développé et nommé indépendamment les composantes principales comme technique statistique en 1933. La méthode a ensuite été unifiée avec la décomposition en valeurs singulières, qui en constitue l'implémentation numérique standard.

Debates

Choix du nombre de composantes
Des règles telles que la conservation des composantes dont les valeurs propres sont supérieures à un, l'examen du graphique d'éboulis (scree plot), ou la fixation d'un seuil de variance cumulative peuvent diverger, et aucun critère unique n'est universellement accepté.

Key figures

  • Karl Pearson
  • Harold Hotelling

Related topics

Seminal works

  • pearson1901
  • hotelling1933
  • jolliffe2002

Frequently asked questions

En quoi l'ACP diffère-t-elle de l'analyse factorielle ?
L'ACP forme des composantes comme des combinaisons linéaires exactes qui maximisent la variance, sans modèle d'erreur explicite, tandis que l'analyse factorielle postule des facteurs communs latents plus un bruit spécifique à la variable pour expliquer la covariance partagée.
Les variables doivent-elles être standardisées avant l'ACP ?
Lorsque les variables sont sur des échelles différentes, il est courant de les standardiser, ce qui équivaut à effectuer une ACP sur la matrice de corrélation, afin qu'aucune variable à forte variance ne domine les composantes.

Methods for this concept

Related concepts