主成分分析は実際に何を計算しますか？

主成分分析は、データの分散をどれだけ捉えるかによって順序付けられた、直交する新しい軸（主成分）を見つけます。上位のいくつかの主成分を保持することで、最小二乗の意味でデータの最適な線形低次元近似が得られます。

すべての特徴量を使用する代わりに次元を削減する理由は何ですか？

高次元ではデータが疎になり、距離の意味が薄れ、モデルが過学習しやすくなり、計算が遅くなります。少数の情報量の多い座標に削減することで、汎化性能、速度、およびデータの視覚化と解釈能力を向上させることができます。

次元削減は、高次元データを、その最も重要な構造を保持する少数の座標で表現する手法であり、視覚化、圧縮、および下流の学習を支援します。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

Learn & explore

動画近日公開

次元削減は、可能な限り多くの関連情報を保持しながら、データを高次元空間から低次元空間にマッピングする手法であり、最大の分散方向への線形射影、またはデータの基礎となる多様体を尊重する非線形埋め込みのいずれかによって行われます。

このトピックでは、最大の分散方向を見つける主成分分析や因子分析などの線形手法、および湾曲した低次元構造を明らかにする非線形多様体学習および埋め込み手法について扱います。また、次元の呪い、再構成誤差、および大域的幾何学と局所的近傍の保持間のトレードオフについても考察します。

主成分分析: 主成分分析は、データを最大の分散を持つ直交方向に射影し、最小二乗の意味で最適な線形低次元近似を与え、変動の主要なパターンを明らかにします。
確率的潜在線形モデル: 確率的主成分分析と因子分析は、次元削減を潜在変数モデルとして捉え、生成的な解釈と、ノイズや欠損データを扱うための原理的な方法を提供します。
多様体学習: 非線形手法は、データが低次元多様体の近くに存在すると仮定し、局所的な近傍関係を保持する埋め込みを構築することで、線形射影では捉えられない構造を捉えます。

次元削減は、複雑なデータセットの視覚化、信号の圧縮とノイズ除去、および下流の学習を高速化し、過学習のリスクを低減するコンパクトな特徴量の生成に用いられます。これは、特徴量の数が増加するにつれて距離と密度が情報を持たなくなる「次元の呪い」に直接対処するものです。

主成分分析はピアソンによって導入され、20世紀初頭にホテリングによって発展しました。因子分析は心理測定学で登場し、2000年代初頭からは非線形多様体学習および近傍埋め込み手法が、湾曲した低次元構造を持つデータに次元削減を拡張し、高次元視覚化の標準的なツールとなりました。

主成分分析は実際に何を計算しますか？: 主成分分析は、データの分散をどれだけ捉えるかによって順序付けられた、直交する新しい軸（主成分）を見つけます。上位のいくつかの主成分を保持することで、最小二乗の意味でデータの最適な線形低次元近似が得られます。
すべての特徴量を使用する代わりに次元を削減する理由は何ですか？: 高次元ではデータが疎になり、距離の意味が薄れ、モデルが過学習しやすくなり、計算が遅くなります。少数の情報量の多い座標に削減することで、汎化性能、速度、およびデータの視覚化と解釈能力を向上させることができます。