Phân tích thành phần chính
Phân tích thành phần chính (PCA) tìm một tập hợp trực giao các biến dẫn xuất, được gọi là các thành phần chính, lần lượt nắm bắt phương sai tối đa có thể có trong một tập dữ liệu đa biến.
Definition
Phân tích thành phần chính là một phép biến đổi tuyến tính trực giao biểu diễn lại các biến tương quan thành các thành phần không tương quan được sắp xếp sao cho thành phần đầu tiên có phương sai lớn nhất và mỗi thành phần kế tiếp có phương sai lớn nhất trực giao với các thành phần trước đó.
Scope
Chủ đề này bao gồm định nghĩa các thành phần chính là các vector riêng của ma trận hiệp phương sai hoặc tương quan, sự tương đương của chúng với xấp xỉ bình phương nhỏ nhất hạng thấp tốt nhất thông qua phân tích giá trị suy biến, cách giải thích các hệ số tải (loadings) và điểm số (scores), lựa chọn số lượng thành phần, và sự khác biệt giữa phân tích dựa trên hiệp phương sai và phân tích dựa trên tương quan.
Core questions
- Sự kết hợp tuyến tính nào của các biến giải thích được nhiều phương sai nhất?
- Cần bao nhiêu thành phần để tóm tắt dữ liệu một cách đầy đủ?
- Khi nào phân tích nên dựa trên ma trận tương quan thay vì ma trận hiệp phương sai?
- Các hệ số tải và điểm số của thành phần được giải thích như thế nào?
Key theories
- Phân tích riêng của ma trận hiệp phương sai
- Các thành phần chính là các vector riêng của ma trận hiệp phương sai, và phương sai được giải thích bởi mỗi thành phần bằng giá trị riêng tương ứng, tạo ra một phân tích trực giao chính xác của tổng phương sai.
- Xấp xỉ hạng thấp tốt nhất
- Việc chiếu dữ liệu lên các trục chính hàng đầu giảm thiểu tổng bình phương lỗi tái tạo trong số tất cả các không gian con có cùng chiều đó, thuộc tính mà Pearson ban đầu đã xây dựng dưới dạng các đường và mặt phẳng phù hợp nhất.
Clinical relevance
PCA được sử dụng rộng rãi để trực quan hóa, khử nhiễu, nén, chẩn đoán đa cộng tuyến, và như một bước tiền xử lý tạo ra các đặc trưng không tương quan cho hồi quy và phân loại.
History
Pearson đã giới thiệu ý tưởng hình học về các đường và mặt phẳng phù hợp nhất vào năm 1901; Hotelling đã độc lập phát triển và đặt tên các thành phần chính như một kỹ thuật thống kê vào năm 1933. Phương pháp này sau đó được thống nhất với phân tích giá trị suy biến, cung cấp cách triển khai số học tiêu chuẩn của nó.
Debates
- Lựa chọn số lượng thành phần
- Các quy tắc như giữ lại các thành phần có giá trị riêng trên một, kiểm tra biểu đồ scree, hoặc cố định ngưỡng phương sai tích lũy có thể không thống nhất, và không có tiêu chí nào được chấp nhận rộng rãi.
Key figures
- Karl Pearson
- Harold Hotelling
Related topics
Seminal works
- pearson1901
- hotelling1933
- jolliffe2002
Frequently asked questions
- PCA khác với phân tích nhân tố như thế nào?
- PCA tạo thành các thành phần như các kết hợp tuyến tính chính xác nhằm tối đa hóa phương sai, không có mô hình lỗi rõ ràng, trong khi phân tích nhân tố giả định các yếu tố chung tiềm ẩn cộng với nhiễu đặc trưng của biến để giải thích hiệp phương sai chung.
- Các biến có nên được chuẩn hóa trước khi thực hiện PCA không?
- Khi các biến có thang đo khác nhau, việc chuẩn hóa là phổ biến, điều này tương đương với việc thực hiện PCA trên ma trận tương quan, để không có biến có phương sai cao nào chi phối các thành phần.