رگرسیون و همبستگی
رگرسیون و همبستگی ابزارهای اصلی آمار زیستی برای کمیسازی چگونگی ارتباط متغیرها با یکدیگر هستند. همبستگی، قدرت و جهت ارتباط بین دو کمیت را اندازهگیری میکند، در حالی که رگرسیون چگونگی تغییر یک پیامد را با تغییر یک یا چند متغیر توضیحی مدلسازی میکند و از هر دو جنبه توضیح و پیشبینی پشتیبانی مینماید. این دو در کنار هم، اساس بیشتر تحلیلهای چندمتغیره گزارششده در علوم بهداشتی را تشکیل میدهند.
Definition
رگرسیون و همبستگی شامل روشهای آماری هستند که ارتباط بین متغیرها را خلاصه میکنند (همبستگی و کوواریانس) و تابعی را تخمین میزنند که یک پیامد را به یک یا چند متغیر توضیحی مرتبط میکند (رگرسیون)، به طوری که پیامد میتواند توضیح داده شود، برای مخدوشکنندهها تعدیل شود، یا پیشبینی گردد.
Scope
این بخش خواننده را با خانوادهای از روشها که برای توصیف ارتباط و مدلسازی پیامدها از پیشبینیکنندهها استفاده میشوند، آشنا میکند: همبستگی و کوواریانس، رگرسیون خطی ساده و چندگانه برای پیامدهای پیوسته، رگرسیون لجستیک برای پیامدهای دوتایی، و ملاحظات فراگیر انتخاب مدل و تشخیصها. این یک نقشه روششناختی است تا یک راهنمای بالینی، و به مدخلهای موضوعی جداگانه که هر روش به تفصیل در آن توسعه یافته است، پیوند میخورد.
Sub-topics
Core questions
- دو متغیر چقدر قوی و در چه جهتی با هم مرتبط هستند؟
- یک پیامد چگونه با تغییر یک متغیر توضیحی، در حالی که سایر متغیرها ثابت نگه داشته میشوند، تغییر میکند؟
- کدام شکل مدل (خطی، لجستیک، یا سایر) با نوع پیامد مورد تحلیل مطابقت دارد؟
- ضرایب رگرسیون چگونه به عنوان اثرات یا پیشبینیها تفسیر میشوند؟
- یک مدل برازشیافته چگونه بررسی، انتخاب و از بیشبرازش (overfitting) محافظت میشود؟
Key concepts
- کوواریانس و ضریب همبستگی
- تخمین حداقل مربعات
- ضریب رگرسیون (شیب) و عرض از مبدأ
- تعدیل و کنترل مخدوشکنندهها از طریق رگرسیون چندگانه
- تابع پیوند و چارچوب مدل خطی تعمیمیافته
- پیشبینی در مقابل توضیح
- بیشبرازش و اعتبارسنجی مدل
- باقیماندهها و تشخیصهای مدل
Mechanisms
همبستگی، تغییرات مشترک دو متغیر (کوواریانس آنها) را به یک ضریب بدون مقیاس بین 1- و 1+ کاهش میدهد. رگرسیون با برازش یک تابع — اغلب یک خط یا مجموعی از پیشبینیکنندههای وزندار — که مقدار مورد انتظار یک پیامد را با توجه به پیشبینیکنندهها توصیف میکند، فراتر میرود. رگرسیون خطی این تابع را برای پیامدهای پیوسته با استفاده از حداقل مربعات تخمین میزند؛ رگرسیون لجستیک و سایر مدلهای خطی تعمیمیافته، همین ایده را به پیامدهای دوتایی، شمارشی و سایر انواع پیامدها از طریق یک تابع پیوند (link function) که پیشبینیکننده خطی را به مقیاس پیامد متصل میکند، گسترش میدهند. در تمام این موارد، ضرایب تفسیر ماهوی را به همراه دارند، و تشخیصها بررسی میکنند که آیا مفروضاتی که این تفسیر را توجیه میکنند، برقرار هستند یا خیر.
Clinical relevance
بیشتر یافتههای کمی در تحقیقات بالینی و بهداشت عمومی — ارتباطات تعدیلشده، عوامل خطر، روابط دوز-پاسخ، و مدلهای پیشبینی — توسط رگرسیون تولید میشوند. درک چگونگی ساخت و تفسیر این مدلها بخشی از ارزیابی انتقادی ادبیات است. این بخش چگونگی تولید چنین شواهدی را توصیف میکند و مبنایی برای تصمیمات تشخیصی یا درمانی فردی نیست.
Evidence & guidelines
راهنمای گزارشدهی برای مطالعات مبتنی بر رگرسیون شامل بیانیه STROBE برای مطالعات مشاهدهای و بیانیه TRIPOD برای مطالعات مدل پیشبینی است؛ متون درسی استاندارد مانند Harrell و Vittinghoff و همکاران، استراتژی مدلسازی توصیه شده را ارائه میدهند. تفسیرهای روششناختی در مورد اقدامات قابل اجتناب مانند دوگانهسازی پیشبینیکنندههای پیوسته، که اطلاعات را از بین میبرد و میتواند اثرات تخمینزده شده را تحریف کند، هشدار میدهند.
History
همبستگی و رگرسیون از مطالعات وراثت فرانسیس گالتون در اواخر قرن نوزدهم نشأت میگیرند، جایی که او «رگرسیون به سمت میانگین» را توصیف کرد، و توسط کارل پیرسون به صورت رسمی پایهگذاری شدند. قرن بیستم مدل خطی را به پیشبینیکنندههای متعدد گسترش داد، و چارچوب مدل خطی تعمیمیافته بعدها مدلهای خطی، لجستیک و مدلهای مرتبط را یکپارچه کرد. در آمار زیستی، این روشها به ابزار استاندارد برای تحلیلهای تعدیلشده و پیشبینی خطر تبدیل شدند.
Key figures
- Francis Galton
- Karl Pearson
- David Cox
- Frank Harrell
- Douglas Altman
Related topics
Seminal works
- altman-bland-2005
- harrell-2015
Frequently asked questions
- تفاوت بین همبستگی و رگرسیون چیست؟
- همبستگی، قدرت و جهت ارتباط بین دو متغیر را در یک ضریب متقارن واحد خلاصه میکند، در حالی که رگرسیون چگونگی وابستگی یک پیامد به یک یا چند پیشبینیکننده را مدلسازی میکند و ضرایبی را ارائه میدهد که میتوانند برای تعدیل یا پیشبینی استفاده شوند. همبستگی پیامد را از پیشبینیکننده متمایز نمیکند؛ رگرسیون این کار را انجام میدهد.
- کدام مدل رگرسیون باید استفاده شود؟
- انتخاب مدل به نوع پیامد بستگی دارد: رگرسیون خطی برای پیامد پیوسته، رگرسیون لجستیک برای پیامد دوتایی، و سایر مدلهای خطی تعمیمیافته یا مدلهای بقا برای دادههای شمارشی یا زمان تا رویداد. مدخلهای موضوعی جداگانه هر یک را به تفصیل شرح میدهند.