رگرسیون لجستیک
رگرسیون لجستیک احتمال یک پیامد دوتایی (بله/خیر) را به عنوان تابعی از یک یا چند پیشبینیکننده مدلسازی میکند. از آنجا که احتمالات بین 0 و 1 محدود میشوند، مدل بر روی مقیاس لگاریتم شانس (log-odds) کار میکند، به طوری که هر ضریب مربوط به تغییری در لگاریتم شانس است و با توانرسانی به نسبت شانس تبدیل میشود. این روش استاندارد رگرسیون برای پیامدهای دوتایی در علوم بهداشتی است.
Definition
رگرسیون لجستیک لگاریتم شانس (لوجیت) یک پیامد دوتایی را به عنوان یک تابع خطی از پیشبینیکنندهها مدلسازی میکند، logit(P) = b0 + b1X1 + ... + bkXk، و ضرایب را با حداکثر درستنمایی برآورد میکند به طوری که ضریب توانرسانی شده exp(bj) نسبت شانس تعدیلشده برای پیشبینیکننده Xj است.
Scope
این مدخل مدل لجستیک دوتایی را پوشش میدهد: تابع پیوند لوجیت (logit) و دلیل استفاده از آن، تفسیر ضرایب به عنوان نسبت شانس، برآورد حداکثر درستنمایی، تنظیم برای متغیرهای مخدوشکننده، و ملاحظات عملی اندازه نمونه (رویدادها به ازای هر متغیر)، جدایی، و برازش مدل. همچنین به تمایز بین نسبت شانس و نسبت خطر اشاره میکند. این یک موضوع روششناختی است، نه راهنمایی بالینی.
Core questions
- چرا یک پیامد دوتایی به جای اینکه مستقیماً به عنوان یک احتمال مدلسازی شود، در مقیاس لگاریتم شانس مدلسازی میشود؟
- چگونه یک ضریب رگرسیون لجستیک به عنوان نسبت شانس تفسیر میشود؟
- ضرایب چگونه برآورد میشوند و مدل چگونه متغیرهای مخدوشکننده را تعدیل میکند؟
- برای برآوردهای پایدار، چند رویداد پیامد به ازای هر پیشبینیکننده لازم است؟
- چه زمانی نسبت شانس به طور قابل توجهی با نسبت خطر تفاوت دارد؟
Key concepts
- تابع پیوند لوجیت (لگاریتم شانس)
- نسبت شانس به عنوان exp(ضریب)
- برآورد حداکثر درستنمایی
- نسبت شانس تعدیلشده در مقابل خام
- رویدادها به ازای هر متغیر
- جدایی و جدایی شبهکامل
- برازش مدل و کالیبراسیون
- نسبت شانس در مقابل نسبت خطر
Mechanisms
مدلسازی مستقیم یک احتمال با یک پیشبینیکننده خطی مشکلساز است زیرا پیشبینیها میتوانند خارج از محدوده 0 تا 1 قرار گیرند؛ تابع پیوند لوجیت این مشکل را با تبدیل احتمال به لگاریتم شانس آن حل میکند، که نامحدود است و به صورت خطی مدلسازی میشود. ضرایب با حداکثر درستنمایی به جای حداقل مربعات برآورد میشوند، و هر ضریب توانرسانی شده، نسبت شانسی است که شانس پیامد را برای یک واحد تفاوت در آن پیشبینیکننده با ثابت نگه داشتن سایرین مقایسه میکند. برآورد پایدار به تعداد کافی رویداد پیامد نسبت به تعداد پیشبینیکنندهها نیاز دارد؛ راهنمایی سنتی حدود ده رویداد به ازای هر متغیر در کارهای بعدی بررسی و تا حدی تعدیل شده است. هنگامی که یک پیشبینیکننده طبقات پیامد را به طور کامل جدا میکند، حداکثر درستنمایی معمولی با شکست مواجه میشود (جدایی)، و رویکردهای جریمهای این مشکل را حل میکنند. از آنجا که مدل نسبت شانس را برآورد میکند، این نسبتها میتوانند نسبت خطر را زمانی که پیامد شایع است، بیش از حد نشان دهند، که این امر انگیزهای برای رویکردهای جایگزین مانند رگرسیون پواسون اصلاحشده برای برآورد مستقیم نسبت خطر شده است.
Clinical relevance
رگرسیون لجستیک زیربنای بخش بزرگی از نسبت شانسهای تعدیلشده و مدلهای تشخیصی و پیشآگهی گزارششده در تحقیقات بالینی و اپیدمیولوژیک است. درک اینکه ضرایب آن نسبت شانس هستند، و اینکه چه زمانی این نسبتها از نسبت خطر منحرف میشوند، برای تفسیر چنین مطالعاتی محوری است. این مدخل روش را توصیف میکند و مبنایی برای تصمیمات تشخیصی یا درمانی فردی نیست.
Epidemiology
رگرسیون لجستیک تحلیل طبیعی برای مطالعات مورد-شاهدی است، جایی که نسبت شانس معیار قابل برآورد برای ارتباط است، و به طور گسترده در مطالعات کوهورت و مقطعی برای به دست آوردن برآوردهای اثر تعدیلشده برای پیامدهای دوتایی استفاده میشود. هنگامی که پیامد در یک کوهورت شایع است، نسبت شانس از نسبت خطر فاصله میگیرد، و تحلیلگران ممکن است روشهایی را ترجیح دهند که نسبت خطر را مستقیماً برآورد میکنند.
Evidence & guidelines
متن هاسمر، لمشو و استوردیوانت یک مرجع استاندارد برای برازش و ارزیابی مدلهای لجستیک است. گزارش مدلهای پیشبینی ساخته شده با رگرسیون لجستیک توسط بیانیه TRIPOD پوشش داده میشود، و مطالعات روششناختی راهنماییهایی در مورد اندازه نمونه مانند رویدادها به ازای هر متغیر ارائه میدهند.
History
تابع لجستیک ریشههایی در قرن نوزدهم در رشد جمعیت دارد، و استفاده از آن برای رگرسیون دوتایی در اواسط قرن بیستم توسعه یافت، با کار دیوید کاکس که این روش را برای تحلیل دادههای دوتایی تثبیت کرد. این روش به یک ابزار اصلی در اپیدمیولوژی تبدیل شد، به ویژه برای تحلیل مورد-شاهدی که در آن نسبت شانس معیار طبیعی است. ادبیات روششناختی بعدی به مسائل عملی از جمله اندازه نمونه، جدایی، و واگرایی نسبت شانس از نسبت خطر پرداخت.
Debates
- چند رویداد پیامد به ازای هر پیشبینیکننده لازم است؟
- یک قانون دیرینه حدود ده رویداد به ازای هر متغیر توسط کارهای شبیهسازی حمایت شد، اما مطالعات بعدی استدلال کردند که این قانون محافظهکارانه و وابسته به زمینه است، به طوری که گاهی اوقات تعداد کمتری از رویدادها ممکن است کافی باشد در حالی که در موارد دیگر ممکن است به تعداد بیشتری نیاز باشد.
- آیا باید از نسبت شانس زمانی که پیامد شایع است استفاده کرد؟
- هنگامی که یک پیامد شایع است، نسبت شانس نسبت خطر را بیش از حد نشان میدهد و میتواند به عنوان یک خطر نسبی اشتباه تفسیر شود؛ جایگزینهایی مانند رگرسیون پواسون اصلاحشده نسبت خطر را مستقیماً برآورد میکنند و برای مطالعات آیندهنگر با پیامدهای دوتایی پیشنهاد شدهاند.
Key figures
- David Cox
- David Hosmer
- Stanley Lemeshow
- Peter Peduzzi
- Eric Vittinghoff
Related topics
Seminal works
- hosmer-2013
- peduzzi-1996
Frequently asked questions
- چرا رگرسیون لجستیک نسبت شانس را گزارش میکند؟
- از آنجا که مدل در مقیاس لگاریتم شانس خطی است، هر ضریب نشاندهنده تغییری در لگاریتم شانس است، و توانرسانی آن یک نسبت شانس را به دست میدهد. بنابراین نسبت شانس معیار اثر طبیعی است که مدل برای یک پیامد دوتایی تولید میکند.
- چه زمانی نسبت شانس تقریب ضعیفی برای نسبت خطر است؟
- هنگامی که پیامد شایع است، نسبت شانس از نسبت خطر منحرف شده و آن را بیش از حد نشان میدهد. در این وضعیت، اگر نسبت شانس به عنوان یک خطر نسبی خوانده شود، میتواند گمراهکننده باشد، و روشهایی که نسبت خطر را مستقیماً برآورد میکنند ممکن است ارجح باشند.