Was berechnet die Hauptkomponentenanalyse eigentlich?

Sie findet neue Achsen, die Hauptkomponenten, die orthogonale Richtungen sind, geordnet danach, wie viel Varianz der Daten sie erfassen. Die Beibehaltung der obersten Komponenten liefert die beste lineare niedrigdimensionale Approximation der Daten im Sinne der kleinsten Quadrate.

Warum Dimensionen reduzieren, anstatt alle Merkmale zu verwenden?

In hohen Dimensionen werden Daten spärlich und Abstände weniger aussagekräftig, Modelle neigen leichter zu Überanpassung und die Berechnung verlangsamt sich. Die Reduzierung auf wenige informative Koordinaten kann die Generalisierung, Geschwindigkeit und die Fähigkeit zur Visualisierung und Interpretation der Daten verbessern.

Dimensionsreduktion

Die Dimensionsreduktion stellt hochdimensionale Daten mit einer geringen Anzahl von Koordinaten dar, die ihre wichtigste Struktur bewahren, was die Visualisierung, Komprimierung und nachfolgendes Lernen unterstützt.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Dimensionsreduktion bildet Daten von einem hochdimensionalen Raum in einen niedrigdimensionalen Raum ab, wobei so viele relevante Informationen wie möglich erhalten bleiben, entweder durch lineare Projektion auf Richtungen maximaler Varianz oder durch nichtlineare Einbettungen, die die zugrunde liegende Mannigfaltigkeit der Daten berücksichtigen.

Scope

Dieses Thema behandelt lineare Methoden wie die Hauptkomponentenanalyse und die Faktorenanalyse, die Richtungen der größten Varianz finden, sowie nichtlineare Mannigfaltigkeitslern- und Einbettungsmethoden, die gekrümmte, niedrigdimensionale Strukturen aufdecken. Es befasst sich mit dem Fluch der Dimensionalität, dem Rekonstruktionsfehler und dem Kompromiss zwischen der Bewahrung der globalen Geometrie und lokaler Nachbarschaften.

Core questions

Wie können viele korrelierte Merkmale durch wenige zusammengefasst werden?
Was optimiert die Hauptkomponentenanalyse?
Wie stellen nichtlineare Methoden gekrümmte Mannigfaltigkeiten wieder her?
Welche Informationen gehen verloren und wie wird dieser Verlust gemessen?

Key theories

Hauptkomponentenanalyse: Die Hauptkomponentenanalyse projiziert Daten auf die orthogonalen Richtungen der größten Varianz und liefert die beste lineare niedrigdimensionale Approximation im Sinne der kleinsten Quadrate, wodurch dominante Variationsmuster aufgedeckt werden.
Probabilistische latente lineare Modelle: Die probabilistische Hauptkomponentenanalyse und Faktorenanalyse fassen die Dimensionsreduktion als Modell mit latenten Variablen auf, was eine generative Interpretation und eine prinzipielle Methode zur Handhabung von Rauschen und fehlenden Daten bietet.
Mannigfaltigkeitslernen: Nichtlineare Methoden gehen davon aus, dass Daten nahe einer niedrigdimensionalen Mannigfaltigkeit liegen, und erstellen Einbettungen, die lokale Nachbarschaftsbeziehungen bewahren und so Strukturen erfassen, die lineare Projektionen nicht können.

Clinical relevance

Die Dimensionsreduktion wird verwendet, um komplexe Datensätze zu visualisieren, Signale zu komprimieren und zu entrauschen sowie kompakte Merkmale zu erzeugen, die das nachfolgende Lernen schneller und weniger anfällig für Überanpassung machen; sie adressiert direkt den Fluch der Dimensionalität, bei dem Abstände und Dichten mit zunehmender Anzahl von Merkmalen uninformativ werden.

History

Die Hauptkomponentenanalyse wurde von Pearson eingeführt und von Hotelling im frühen 20. Jahrhundert weiterentwickelt. Die Faktorenanalyse entstand in der Psychometrie, und ab den frühen 2000er Jahren erweiterten nichtlineare Mannigfaltigkeitslern- und Nachbarschaftseinbettungsmethoden die Dimensionsreduktion auf Daten mit gekrümmter, niedrigdimensionaler Struktur und wurden zu Standardwerkzeugen für die hochdimensionale Visualisierung.

Key figures

Karl Pearson
Harold Hotelling
Trevor Hastie

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

Was berechnet die Hauptkomponentenanalyse eigentlich?: Sie findet neue Achsen, die Hauptkomponenten, die orthogonale Richtungen sind, geordnet danach, wie viel Varianz der Daten sie erfassen. Die Beibehaltung der obersten Komponenten liefert die beste lineare niedrigdimensionale Approximation der Daten im Sinne der kleinsten Quadrate.
Warum Dimensionen reduzieren, anstatt alle Merkmale zu verwenden?: In hohen Dimensionen werden Daten spärlich und Abstände weniger aussagekräftig, Modelle neigen leichter zu Überanpassung und die Berechnung verlangsamt sich. Die Reduzierung auf wenige informative Koordinaten kann die Generalisierung, Geschwindigkeit und die Fähigkeit zur Visualisierung und Interpretation der Daten verbessern.