Regresi dan Korelasi
Regresi dan korelasi adalah alat biostatistik inti untuk mengukur bagaimana variabel-variabel saling berhubungan. Korelasi mengukur kekuatan dan arah asosiasi antara dua kuantitas, sementara regresi memodelkan bagaimana suatu hasil berubah seiring dengan perubahan satu atau lebih variabel penjelas, mendukung penjelasan dan prediksi. Bersama-sama, keduanya mendasari sebagian besar analisis multivariabel yang dilaporkan dalam ilmu kesehatan.
Definition
Regresi dan korelasi meliputi metode statistik yang meringkas asosiasi antara variabel (korelasi dan kovarians) dan yang memperkirakan fungsi yang menghubungkan suatu hasil dengan satu atau lebih variabel penjelas (regresi), sehingga hasilnya dapat dijelaskan, disesuaikan untuk perancu (confounders), atau diprediksi.
Scope
Area ini mengarahkan pembaca melalui keluarga metode yang digunakan untuk menggambarkan asosiasi dan untuk memodelkan hasil dari prediktor: korelasi dan kovarians, regresi linear sederhana dan berganda untuk hasil kontinu, regresi logistik untuk hasil biner, dan masalah pemilihan model serta diagnostik yang saling terkait. Ini adalah peta metodologis daripada panduan klinis, dan ini menghubungkan ke entri topik individual di mana setiap metode dikembangkan secara rinci.
Sub-topics
Core questions
- Seberapa kuat, dan ke arah mana, dua variabel saling berhubungan?
- Bagaimana suatu hasil berubah seiring dengan perubahan variabel penjelas, dengan variabel lain dianggap konstan?
- Bentuk model mana (linear, logistik, atau lainnya) yang cocok dengan jenis hasil yang dianalisis?
- Bagaimana koefisien regresi diinterpretasikan sebagai efek atau sebagai prediksi?
- Bagaimana model yang telah disesuaikan diperiksa, dipilih, dan dicegah dari overfitting?
Key concepts
- Kovarians dan koefisien korelasi
- Estimasi kuadrat terkecil (least-squares estimation)
- Koefisien regresi (slope) dan intersep
- Penyesuaian dan pengendalian perancu (confounding control) melalui regresi berganda
- Fungsi tautan (link function) dan kerangka model linear umum
- Prediksi versus penjelasan
- Overfitting dan validasi model
- Residu dan diagnostik model
Mechanisms
Korelasi mereduksi variasi gabungan dua variabel (kovariansnya) menjadi koefisien bebas skala antara -1 dan +1. Regresi melangkah lebih jauh dengan menyesuaikan fungsi — paling sering berupa garis atau jumlah prediktor berbobot — yang menggambarkan nilai yang diharapkan dari suatu hasil berdasarkan prediktor. Regresi linear memperkirakan fungsi ini untuk hasil kontinu dengan kuadrat terkecil (least squares); regresi logistik dan model linear umum lainnya memperluas ide yang sama ke tipe hasil biner, hitungan, dan lainnya melalui fungsi tautan (link function) yang menghubungkan prediktor linear ke skala hasil. Di antara semua ini, koefisien membawa interpretasi substantif, dan diagnostik memeriksa apakah asumsi yang membenarkan interpretasi tersebut berlaku.
Clinical relevance
Sebagian besar temuan kuantitatif dalam penelitian klinis dan kesehatan masyarakat — asosiasi yang disesuaikan, faktor risiko, hubungan dosis-respons, dan model prediksi — dihasilkan oleh regresi. Memahami bagaimana model-model ini dibangun dan diinterpretasikan adalah bagian dari penilaian kritis terhadap literatur. Area ini menjelaskan bagaimana bukti semacam itu dihasilkan dan bukan merupakan dasar untuk keputusan diagnostik atau pengobatan individual.
Evidence & guidelines
Panduan pelaporan untuk studi berbasis regresi meliputi pernyataan STROBE untuk studi observasional dan pernyataan TRIPOD untuk studi model prediksi; perlakuan buku teks standar seperti Harrell dan Vittinghoff dan rekan-rekan menetapkan strategi pemodelan yang direkomendasikan. Komentar metodologis memperingatkan terhadap praktik yang dapat dihindari seperti dikotomisasi prediktor kontinu, yang membuang informasi dan dapat mendistorsi efek yang diperkirakan.
History
Korelasi dan regresi berasal dari studi hereditas Francis Galton pada akhir abad kesembilan belas, di mana ia menggambarkan 'regresi menuju rata-rata,' dan ditempatkan pada pijakan formal oleh Karl Pearson. Abad kedua puluh memperluas model linear ke beberapa prediktor, dan kerangka model linear umum kemudian menyatukan model linear, logistik, dan model terkait. Dalam biostatistik, metode-metode ini menjadi perangkat standar untuk analisis yang disesuaikan dan prediksi risiko.
Key figures
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
Related topics
Seminal works
- altman-bland-2005
- harrell-2015
Frequently asked questions
- Apa perbedaan antara korelasi dan regresi?
- Korelasi meringkas kekuatan dan arah asosiasi antara dua variabel dalam satu koefisien simetris, sedangkan regresi memodelkan bagaimana suatu hasil bergantung pada satu atau lebih prediktor dan menghasilkan koefisien yang dapat digunakan untuk penyesuaian atau prediksi. Korelasi tidak membedakan hasil dari prediktor; regresi membedakannya.
- Model regresi mana yang harus digunakan?
- Pilihan mengikuti jenis hasil: regresi linear untuk hasil kontinu, regresi logistik untuk hasil biner, dan model linear umum atau model survival lainnya untuk data hitungan atau waktu-ke-kejadian. Entri topik individual menjelaskan masing-masing secara rinci.