Regresyon ve Korelasyon
Regresyon ve korelasyon, değişkenlerin birbirleriyle nasıl ilişkili olduğunu nicel olarak belirlemek için kullanılan temel biyostatistiksel araçlardır. Korelasyon, iki nicelik arasındaki ilişkinin gücünü ve yönünü ölçerken, regresyon, bir veya daha fazla açıklayıcı değişken değiştikçe bir sonucun nasıl değiştiğini modeller, hem açıklamayı hem de tahmini desteklemektedir. Sağlık bilimlerinde rapor edilen çok değişkenli analizlerin çoğu bu yöntemlere dayanmaktadır.
Tanım
Regresyon ve korelasyon, değişkenler arasındaki ilişkiyi özetleyen (korelasyon ve kovaryans) ve bir sonucu bir veya daha fazla açıklayıcı değişkene (regresyon) bağlayan bir fonksiyonu tahmin eden istatistiksel yöntemleri kapsamaktadır; böylece sonucun açıklanabilmesi, karıştırıcı etkiler (confounders) için ayarlanabilmesi veya tahmin edilebilmesi sağlanmaktadır.
Kapsam
Bu alan, okuyucuyu ilişkiyi tanımlamak ve tahmin edicilerden sonuçları modellemek için kullanılan yöntemler ailesi genelinde yönlendirmektedir: korelasyon ve kovaryans, sürekli sonuçlar için basit ve çoklu doğrusal regresyon, ikili sonuçlar için lojistik regresyon ve model seçimi ile tanılamanın (diagnostics) genel kaygılarını içermektedir. Bu, klinik bir rehberlikten ziyade metodolojik bir haritadır ve her yöntemin ayrıntılı olarak geliştirildiği bireysel konu girişlerine bağlantı vermektedir.
Alt konular
Temel sorular
- İki değişken ne kadar güçlü ve hangi yönde ilişkilidir?
- Diğer değişkenler sabit tutulduğunda, açıklayıcı bir değişken değiştikçe bir sonuç nasıl değişir?
- Hangi model formu (doğrusal, lojistik veya diğer) analiz edilen sonuç türüyle eşleşmektedir?
- Regresyon katsayıları etkiler veya tahminler olarak nasıl yorumlanır?
- Uydurulmuş bir model nasıl kontrol edilir, seçilir ve aşırı uydurmadan (overfitting) nasıl korunur?
Anahtar kavramlar
- Kovaryans ve korelasyon katsayısı
- En küçük kareler tahmini
- Regresyon katsayısı (eğim) ve kesişim noktası
- Çoklu regresyon aracılığıyla ayarlama ve karıştırıcı etki (confounding) kontrolü
- Bağlantı fonksiyonu (link function) ve genelleştirilmiş doğrusal model çerçevesi
- Tahmin ve açıklama
- Aşırı uydurma (overfitting) ve model doğrulama
- Kalıntılar (residuals) ve model tanılamaları (diagnostics)
Mekanizmalar
Korelasyon, iki değişkenin ortak varyasyonunu (kovaryanslarını) -1 ile +1 arasında ölçekten bağımsız bir katsayıya indirgemektedir. Regresyon, tahmin ediciler verildiğinde bir sonucun beklenen değerini tanımlayan bir fonksiyonu — çoğunlukla bir doğru veya ağırlıklı tahmin edicilerin toplamı — uydurarak daha ileri gitmektedir. Doğrusal regresyon, sürekli sonuçlar için bu fonksiyonu en küçük kareler yöntemiyle tahmin etmektedir; lojistik ve diğer genelleştirilmiş doğrusal modeller, doğrusal tahmin ediciyi sonuç ölçeğine bağlayan bir bağlantı fonksiyonu (link function) aracılığıyla aynı fikri ikili, sayım ve diğer sonuç tiplerine genişletmektedir. Tüm bunlarda, katsayılar esaslı yorumu taşımaktadır ve tanılamalar (diagnostics), bu yorumu haklı çıkaran varsayımların geçerli olup olmadığını kontrol etmektedir.
Klinik önem
Klinik ve halk sağlığı araştırmalarındaki çoğu nicel bulgu — ayarlanmış ilişkiler, risk faktörleri, doz-yanıt ilişkileri ve tahmin modelleri — regresyon ile üretilmektedir. Bu modellerin nasıl inşa edildiğini ve yorumlandığını anlamak, literatürü eleştirel olarak değerlendirmenin bir parçasıdır. Bu alan, bu tür kanıtların nasıl üretildiğini tanımlamakta olup, bireysel tanı veya tedavi kararları için bir temel oluşturmamaktadır.
Kanıt ve kılavuzlar
Regresyon tabanlı çalışmalar için raporlama rehberliği, gözlemsel çalışmalar için STROBE bildirgesini ve tahmin modeli çalışmaları için TRIPOD bildirgesini içermektedir; Harrell ve Vittinghoff ve meslektaşları gibi standart ders kitabı yaklaşımları, önerilen modelleme stratejisini ortaya koymaktadır. Metodolojik yorumlar, sürekli tahmin edicileri ikileştirme gibi kaçınılmaz uygulamalara karşı uyarmaktadır; bu tür uygulamalar bilgiyi kaybetmekte ve tahmin edilen etkileri bozabilmektedir.
Tarihçe
Korelasyon ve regresyon, Francis Galton'ın 19. yüzyıl sonlarındaki kalıtım çalışmalarından kaynaklanmaktadır; burada 'ortalamaya regresyon'u tanımlamış ve Karl Pearson tarafından resmi bir temele oturtulmuştur. Yirminci yüzyıl, doğrusal modeli çoklu tahmin edicilere genişletmiş ve genelleştirilmiş doğrusal model çerçevesi daha sonra doğrusal, lojistik ve ilgili modelleri birleştirmiştir. Biyoistatistikte bu yöntemler, ayarlanmış analiz ve risk tahmini için standart bir araç haline gelmiştir.
Öne çıkan isimler
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
İlgili konular
Temel eserler
- altman-bland-2005
- harrell-2015
Sıkça sorulan sorular
- Korelasyon ve regresyon arasındaki fark nedir?
- Korelasyon, iki değişken arasındaki ilişkinin gücünü ve yönünü tek bir simetrik katsayıda özetlerken, regresyon, bir sonucun bir veya daha fazla tahmin ediciye nasıl bağlı olduğunu modeller ve ayarlama veya tahmin için kullanılabilecek katsayılar üretir. Korelasyon, sonucu tahmin ediciden ayırmaz; regresyon ise ayırır.
- Hangi regresyon modeli kullanılmalıdır?
- Seçim, sonuç türüne göre yapılmaktadır: sürekli bir sonuç için doğrusal regresyon, ikili bir sonuç için lojistik regresyon ve sayım veya olay zamanı verileri için diğer genelleştirilmiş doğrusal veya sağkalım modelleri kullanılmaktadır. Bireysel konu girişleri her birini ayrıntılı olarak açıklamaktadır.