Temel Bileşen Analizi
Temel bileşen analizi (TBA), çok değişkenli bir veri setindeki mümkün olan en yüksek varyansı art arda yakalayan, temel bileşenler adı verilen ortogonal bir türetilmiş değişkenler kümesi belirlemektedir.
Tanım
Temel bileşen analizi, korelasyonlu değişkenleri korelasyonsuz bileşenler olarak yeniden ifade eden ortogonal bir doğrusal dönüşümdür; bu bileşenler, ilk bileşenin en büyük varyansa sahip olacak ve her ardışık bileşenin kendinden öncekilere ortogonal olarak en büyük varyansı içerecek şekilde sıralanmaktadır.
Kapsam
Bu konu, temel bileşenlerin kovaryans veya korelasyon matrisinin özvektörleri olarak tanımlanmasını, tekil değer ayrışımı (singular value decomposition) aracılığıyla en iyi düşük ranklı en küçük kareler yaklaşımına eşdeğerliklerini, yüklemelerin (loadings) ve skorların (scores) yorumlanmasını, bileşen sayısının seçimini ve kovaryans tabanlı ile korelasyon tabanlı analizler arasındaki ayrımı kapsamaktadır.
Temel sorular
- Değişkenlerin hangi doğrusal kombinasyonları varyansın çoğunu açıklamaktadır?
- Verileri yeterince özetlemek için kaç bileşen gereklidir?
- Analiz ne zaman kovaryans matrisi yerine korelasyon matrisine dayandırılmalıdır?
- Bileşen yüklemeleri (loadings) ve skorları (scores) nasıl yorumlanmaktadır?
Temel kuramlar
- Kovaryans matrisinin öz ayrışımı (eigen-decomposition)
- Temel bileşenler, kovaryans matrisinin özvektörleridir ve her bileşen tarafından açıklanan varyans, karşılık gelen özdeğere eşittir; bu da toplam varyansın kesin bir ortogonal ayrışımını sağlamaktadır.
- En iyi düşük ranklı yaklaşım
- Verileri önde gelen temel eksenlere yansıtmak, o boyuttaki tüm alt uzaylar arasında kareli yeniden yapılandırma hatalarının toplamını minimize etmektedir; bu özellik, Pearson tarafından başlangıçta en yakın uyan doğrular ve düzlemler olarak formüle edilmiştir.
Klinik önem
TBA; görselleştirme, gürültü giderme, sıkıştırma, çoklu doğrusallık (multicollinearity) tanısı ve regresyon ile sınıflandırma için korelasyonsuz özellikler üreten bir ön işleme adımı olarak yaygın şekilde kullanılmaktadır.
Tarihçe
Pearson, 1901 yılında en iyi uyan doğrular ve düzlemlerin geometrik fikrini ortaya koymuştur; Hotelling ise 1933 yılında temel bileşenleri bağımsız olarak bir istatistiksel teknik olarak geliştirmiş ve adlandırmıştır. Bu yöntem daha sonra, standart sayısal uygulamasını sağlayan tekil değer ayrışımı (singular value decomposition) ile birleştirilmiştir.
Tartışmalar
- Bileşen sayısının seçimi
- Özdeğeri birden büyük olan bileşenleri tutma, scree grafiğini inceleme veya kümülatif varyans eşiği belirleme gibi kurallar birbiriyle çelişebilmekte ve hiçbir tek kriter evrensel olarak kabul görmemektedir.
Öne çıkan isimler
- Karl Pearson
- Harold Hotelling
İlgili konular
Temel eserler
- pearson1901
- hotelling1933
- jolliffe2002
Sıkça sorulan sorular
- TBA, faktör analizinden nasıl farklılaşmaktadır?
- TBA, varyansı maksimize eden kesin doğrusal kombinasyonlar olarak bileşenler oluşturur ve açık bir hata modeli içermezken, faktör analizi paylaşılan kovaryansı açıklamak için gizli ortak faktörler ve değişkene özgü gürültü varsaymaktadır.
- TBA öncesinde değişkenler standardize edilmeli midir?
- Değişkenler farklı ölçeklerde olduğunda standardizasyon yapmak yaygın bir uygulamadır; bu, korelasyon matrisi üzerinde TBA yapmaya eşdeğerdir ve böylece hiçbir yüksek varyanslı değişkenin bileşenlere baskın gelmemesi sağlanır.