Wie unterscheidet sich PCA von der Faktorenanalyse?

PCA bildet Komponenten als exakte Linearkombinationen, die die Varianz maximieren, ohne ein explizites Fehlermodell, während die Faktorenanalyse latente gemeinsame Faktoren plus variablenspezifisches Rauschen annimmt, um die gemeinsame Kovarianz zu erklären.

Sollten Variablen vor der PCA standardisiert werden?

Wenn Variablen auf unterschiedlichen Skalen liegen, ist es üblich, sie zu standardisieren, was der Durchführung einer PCA auf der Korrelationsmatrix entspricht, damit keine einzelne Variable mit hoher Varianz die Komponenten dominiert.

Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) findet einen orthogonalen Satz abgeleiteter Variablen, die Hauptkomponenten, die sukzessive die maximal mögliche Varianz in einem multivariaten Datensatz erfassen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Die Hauptkomponentenanalyse ist eine orthogonale lineare Transformation, die korrelierte Variablen als unkorrelierte Komponenten neu ausdrückt, die so geordnet sind, dass die erste Komponente die größte Varianz aufweist und jede nachfolgende Komponente die größte Varianz orthogonal zu den vorhergehenden Komponenten besitzt.

Scope

Dieses Thema behandelt die Definition von Hauptkomponenten als Eigenvektoren der Kovarianz- oder Korrelationsmatrix, ihre Äquivalenz zur besten Least-Squares-Approximation niedrigen Rangs mittels Singulärwertzerlegung, die Interpretation von Ladungen und Scores, die Wahl der Anzahl der Komponenten und die Unterscheidung zwischen kovarianzbasierten und korrelationsbasierten Analysen.

Core questions

Welche linearen Kombinationen von Variablen erklären die meiste Varianz?
Wie viele Komponenten sind erforderlich, um die Daten adäquat zusammenzufassen?
Wann sollte die Analyse auf der Korrelations- statt auf der Kovarianzmatrix basieren?
Wie werden Komponentenladungen und Scores interpretiert?

Key theories

Eigenzerlegung der Kovarianzmatrix: Die Hauptkomponenten sind die Eigenvektoren der Kovarianzmatrix, und die durch jede Komponente erklärte Varianz entspricht dem entsprechenden Eigenwert, was eine exakte orthogonale Zerlegung der Gesamtvarianz ergibt.
Beste Niedrigrang-Approximation: Die Projektion von Daten auf die führenden Hauptachsen minimiert die Summe der quadrierten Rekonstruktionsfehler unter allen Unterräumen dieser Dimension, eine Eigenschaft, die Pearson ursprünglich als Linien und Ebenen der besten Anpassung formulierte.

Clinical relevance

PCA wird häufig zur Visualisierung, Entrauschung, Kompression, Diagnose von Multikollinearität und als Vorverarbeitungsschritt eingesetzt, der unkorrelierte Merkmale für Regression und Klassifikation erzeugt.

History

Pearson führte 1901 die geometrische Idee der am besten passenden Linien und Ebenen ein; Hotelling entwickelte und benannte 1933 unabhängig davon die Hauptkomponenten als statistische Technik. Die Methode wurde später mit der Singulärwertzerlegung vereinheitlicht, die ihre Standardimplementierung liefert.

Debates

Wahl der Anzahl der Komponenten: Regeln wie das Beibehalten von Komponenten mit Eigenwerten über eins, die Inspektion des Scree-Plots oder die Festlegung eines kumulativen Varianzschwellenwerts können zu unterschiedlichen Ergebnissen führen, und kein einzelnes Kriterium ist universell akzeptiert.

Key figures

Karl Pearson
Harold Hotelling

Seminal works

pearson1901
hotelling1933
jolliffe2002

Frequently asked questions

Wie unterscheidet sich PCA von der Faktorenanalyse?: PCA bildet Komponenten als exakte Linearkombinationen, die die Varianz maximieren, ohne ein explizites Fehlermodell, während die Faktorenanalyse latente gemeinsame Faktoren plus variablenspezifisches Rauschen annimmt, um die gemeinsame Kovarianz zu erklären.
Sollten Variablen vor der PCA standardisiert werden?: Wenn Variablen auf unterschiedlichen Skalen liegen, ist es üblich, sie zu standardisieren, was der Durchführung einer PCA auf der Korrelationsmatrix entspricht, damit keine einzelne Variable mit hoher Varianz die Komponenten dominiert.