Çoklu Doğrusal Regresyon
Çoklu doğrusal regresyon, düz çizgi modelini aynı anda birkaç açıklayıcı değişkene genişleterek, sürekli bir çıktıyı tahmin edicilerin ağırlıklı bir toplamı artı bir kesişim olarak modeller. Her bir katsayı, diğerlerini sabit tutarken kendi tahmin edicisinin etkisini tahmin eder; bu da modeli, bir ilişkiyi karıştırıcı etkiler (confounding) için ayarlamak ve çok değişkenli tahmin oluşturmak için standart bir araç haline getirmektedir.
Tanım
Çoklu doğrusal regresyon, sürekli bir çıktı Y için E(Y) = b0 + b1X1 + b2X2 + ... + bkXk denklemini uydurur ve katsayıları en küçük kareler yöntemiyle tahmin eder, böylece her bir bj, diğer tahmin ediciler sabit tutulurken Xj'deki bir birimlik artış başına Y'deki ortalama değişimi nicelendirir.
Kapsam
Bu giriş, çok değişkenli doğrusal modeli kapsamaktadır: her bir katsayının ayarlanmış bir etki olarak yorumlanması, kategorik tahmin edicilerin ve etkileşimlerin ele alınması, birkaç tahmin edicinin getirdiği ek endişeler (çoklu doğrusallık (collinearity), aşırı uyum (overfitting) ve tahmin edicilerin nasıl seçildiği) ve basit modeldeki kalıntı tabanlı varsayımlar. Bu, klinik bir rehberlik değil, metodolojik bir konudur.
Temel sorular
- Bir katsayıyı 'diğer değişkenleri sabit tutarak' yorumlamak ne anlama gelmektedir?
- Çoklu regresyon, bir ilişkiyi karıştırıcı etkiler (confounders) için nasıl ayarlamaktadır?
- Kategorik tahmin ediciler ve etkileşimler modelde nasıl temsil edilmektedir?
- Çoklu doğrusallık (collinearity) ve çok fazla tahmin edici ne gibi sorunlara yol açmaktadır?
- Aşırı uyumu (overfitting) önlemek için tahmin edici sayısı örneklem büyüklüğüyle nasıl dengelenmektedir?
Anahtar kavramlar
- Ayarlanmış (kısmi) regresyon katsayısı
- Ayarlama yoluyla karıştırıcı etki (confounding) kontrolü
- Kategorik tahmin edicilerin kukla kodlaması
- Etkileşim (etki modifikasyonu) terimleri
- Çoklu doğrusallık (Multicollinearity)
- Aşırı uyum (Overfitting) ve tahmin edici başına olay/gözlem sayısı
- Model R-kare ve ayarlanmış R-kare
- Doğrusallık, bağımsızlık, sabit varyans, normal hatalar
Mekanizmalar
Model, ortalama çıktıyı bir kesişim artı tahmin edicilerin ağırlıklı bir toplamı olarak ifade eder; ağırlıklar (katsayılar) en küçük kareler yöntemiyle tahmin edilmektedir. Her bir katsayı kısmi bir etkidir: diğerleri sabit tutulduğunda, o tahmin edicideki bir birimlik değişime karşılık çıktıda beklenen değişimdir; bu da regresyonun karıştırıcı etkileri (confounding) ayarlama mekanizmasıdır. Kategorik tahmin ediciler gösterge (kukla) değişkenler olarak modele dahil edilir ve etkileşim terimleri, bir tahmin edicinin etkisinin diğerine bağlı olmasına olanak tanır. Tahmin ediciler güçlü bir şekilde ilişkili olduğunda (çoklu doğrusallık (multicollinearity)), genel tahmin etkilenmese bile bireysel katsayılar kararsız hale gelir ve yorumlanması zorlaşır. Örneklem büyüklüğüne göre çok fazla tahmin edici dahil etmek, modelin gürültüyü yakaladığı ve yeni verilerde kötü performans gösterdiği aşırı uyuma (overfitting) yol açar; bu durum, örneklem büyüklüğüne göre tahmin edicilerin sınırlandırılmasını ve modelin doğrulanmasını teşvik etmektedir.
Klinik önem
Çoklu doğrusal regresyon, klinik ve halk sağlığı araştırmalarında sürekli çıktılar için bildirilen ayarlanmış ilişkilerin çoğunu üretir ve risk tahmini çalışmalarının temel bir yapı taşıdır. Katsayılarının nasıl yorumlandığını ve karıştırıcı etkilerin (confounding) nasıl kontrol edildiğini bilmek, bu tür çalışmaları değerlendirmek için merkezi bir öneme sahiptir. Bu giriş, yöntemi tanımlamaktadır ve bireysel tanı veya tedavi kararları için bir temel değildir.
Kanıt ve kılavuzlar
Kutner ve arkadaşları ile Harrell gibi standart metinler, önerilen modelleme stratejisini ortaya koymaktadır ve metodolojik çalışmalar, kaçınılması gereken uygulamalara karşı uyarmaktadır — özellikle sürekli tahmin edicilerin dikotomize edilmesi, bu durum bilgiyi kaybetmekte ve tahminleri yanlı hale getirebilmektedir. Tahmin modeli raporlaması TRIPOD bildirisi tarafından ele alınmaktadır.
Tarihçe
Doğrusal modelin çok değişkenli uzantısı, yirminci yüzyılın başlarında Pearson, Fisher ve diğerlerinin çalışmalarıyla gelişmiştir; bu kişiler, birkaç tahmin edici için en küçük kareler tahminini ve çıkarımını oluşturmuşlardır. Biyoistatistikte model, ilişkileri karıştırıcı etkiler (confounders) için ayarlamak için standart bir yöntem haline gelmiş ve daha sonraki metodolojik literatür, tahmin edicilerin nasıl seçilmesi gerektiği ve aşırı uyum (overfitting) ile dikotomizasyonun sonuçları nasıl bozduğu üzerine odaklanmıştır.
Tartışmalar
- Sürekli tahmin ediciler bir regresyon modelinde dikotomize edilmeli midir?
- Sürekli bir tahmin ediciyi bir kesme noktasında bölmek, bilgiyi kaybetmekte, gücü azaltmakta ve tahmin edilen ilişkiyi bozabilmektedir; metodologlar, sürekli tahmin edicilerin genellikle sürekli tutulması gerektiğini, doğrusalsızlığın kategorizasyonla kaldırılmak yerine esnek bir şekilde modellenmesi gerektiğini savunmaktadır.
Öne çıkan isimler
- Karl Pearson
- Ronald A. Fisher
- Frank Harrell
- Douglas Altman
- Patrick Royston
İlgili konular
Temel eserler
- altman-royston-2006-cost
- harrell-2015
Sıkça sorulan sorular
- Çoklu regresyon neden karıştırıcı etkileri (confounding) kontrol etmek için kullanılmaktadır?
- Çünkü her bir katsayı, modeldeki diğer tahmin ediciler sabit tutulurken kendi tahmin edicisinin etkisini tahmin etmektedir; bir karıştırıcı etkiyi (confounder) tahmin edici olarak dahil etmek, ilgi duyulan maruziyetin tahmini etkisini o karıştırıcı etki (confounder) için ayarlamaktadır.
- Çoklu doğrusallık (multicollinearity) nedir ve neden önemlidir?
- Çoklu doğrusallık (multicollinearity), tahmin ediciler arasındaki güçlü korelasyondur. Modelin genel tahmin doğruluğu etkilenmese bile, bireysel katsayı tahminlerini kararsız ve yorumlaması zor hale getirmekte, standart hataları şişirmektedir.