چرا رگرسیون لجستیک نسبت شانس را گزارش میکند؟

از آنجا که مدل در مقیاس لگاریتم شانس خطی است، هر ضریب نشاندهنده تغییری در لگاریتم شانس است، و توانرسانی آن یک نسبت شانس را به دست میدهد. بنابراین نسبت شانس معیار اثر طبیعی است که مدل برای یک پیامد دوتایی تولید میکند.

چه زمانی نسبت شانس تقریب ضعیفی برای نسبت خطر است؟

هنگامی که پیامد شایع است، نسبت شانس از نسبت خطر منحرف شده و آن را بیش از حد نشان میدهد. در این وضعیت، اگر نسبت شانس به عنوان یک خطر نسبی خوانده شود، میتواند گمراهکننده باشد، و روشهایی که نسبت خطر را مستقیماً برآورد میکنند ممکن است ارجح باشند.

رگرسیون لجستیک

رگرسیون لجستیک احتمال یک پیامد دوتایی (بله/خیر) را به عنوان تابعی از یک یا چند پیش‌بینی‌کننده مدل‌سازی می‌کند. از آنجا که احتمالات بین 0 و 1 محدود می‌شوند، مدل بر روی مقیاس لگاریتم شانس (log-odds) کار می‌کند، به طوری که هر ضریب مربوط به تغییری در لگاریتم شانس است و با توان‌رسانی به نسبت شانس تبدیل می‌شود. این روش استاندارد رگرسیون برای پیامدهای دوتایی در علوم بهداشتی است.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

رگرسیون لجستیک لگاریتم شانس (لوجیت) یک پیامد دوتایی را به عنوان یک تابع خطی از پیش‌بینی‌کننده‌ها مدل‌سازی می‌کند، logit(P) = b0 + b1X1 + ... + bkXk، و ضرایب را با حداکثر درست‌نمایی برآورد می‌کند به طوری که ضریب توان‌رسانی شده exp(bj) نسبت شانس تعدیل‌شده برای پیش‌بینی‌کننده Xj است.

Scope

این مدخل مدل لجستیک دوتایی را پوشش می‌دهد: تابع پیوند لوجیت (logit) و دلیل استفاده از آن، تفسیر ضرایب به عنوان نسبت شانس، برآورد حداکثر درست‌نمایی، تنظیم برای متغیرهای مخدوش‌کننده، و ملاحظات عملی اندازه نمونه (رویدادها به ازای هر متغیر)، جدایی، و برازش مدل. همچنین به تمایز بین نسبت شانس و نسبت خطر اشاره می‌کند. این یک موضوع روش‌شناختی است، نه راهنمایی بالینی.

Core questions

چرا یک پیامد دوتایی به جای اینکه مستقیماً به عنوان یک احتمال مدل‌سازی شود، در مقیاس لگاریتم شانس مدل‌سازی می‌شود؟
چگونه یک ضریب رگرسیون لجستیک به عنوان نسبت شانس تفسیر می‌شود؟
ضرایب چگونه برآورد می‌شوند و مدل چگونه متغیرهای مخدوش‌کننده را تعدیل می‌کند؟
برای برآوردهای پایدار، چند رویداد پیامد به ازای هر پیش‌بینی‌کننده لازم است؟
چه زمانی نسبت شانس به طور قابل توجهی با نسبت خطر تفاوت دارد؟

Key concepts

تابع پیوند لوجیت (لگاریتم شانس)
نسبت شانس به عنوان exp(ضریب)
برآورد حداکثر درست‌نمایی
نسبت شانس تعدیل‌شده در مقابل خام
رویدادها به ازای هر متغیر
جدایی و جدایی شبه‌کامل
برازش مدل و کالیبراسیون
نسبت شانس در مقابل نسبت خطر

Mechanisms

مدل‌سازی مستقیم یک احتمال با یک پیش‌بینی‌کننده خطی مشکل‌ساز است زیرا پیش‌بینی‌ها می‌توانند خارج از محدوده 0 تا 1 قرار گیرند؛ تابع پیوند لوجیت این مشکل را با تبدیل احتمال به لگاریتم شانس آن حل می‌کند، که نامحدود است و به صورت خطی مدل‌سازی می‌شود. ضرایب با حداکثر درست‌نمایی به جای حداقل مربعات برآورد می‌شوند، و هر ضریب توان‌رسانی شده، نسبت شانسی است که شانس پیامد را برای یک واحد تفاوت در آن پیش‌بینی‌کننده با ثابت نگه داشتن سایرین مقایسه می‌کند. برآورد پایدار به تعداد کافی رویداد پیامد نسبت به تعداد پیش‌بینی‌کننده‌ها نیاز دارد؛ راهنمایی سنتی حدود ده رویداد به ازای هر متغیر در کارهای بعدی بررسی و تا حدی تعدیل شده است. هنگامی که یک پیش‌بینی‌کننده طبقات پیامد را به طور کامل جدا می‌کند، حداکثر درست‌نمایی معمولی با شکست مواجه می‌شود (جدایی)، و رویکردهای جریمه‌ای این مشکل را حل می‌کنند. از آنجا که مدل نسبت شانس را برآورد می‌کند، این نسبت‌ها می‌توانند نسبت خطر را زمانی که پیامد شایع است، بیش از حد نشان دهند، که این امر انگیزه‌ای برای رویکردهای جایگزین مانند رگرسیون پواسون اصلاح‌شده برای برآورد مستقیم نسبت خطر شده است.

Clinical relevance

رگرسیون لجستیک زیربنای بخش بزرگی از نسبت شانس‌های تعدیل‌شده و مدل‌های تشخیصی و پیش‌آگهی گزارش‌شده در تحقیقات بالینی و اپیدمیولوژیک است. درک اینکه ضرایب آن نسبت شانس هستند، و اینکه چه زمانی این نسبت‌ها از نسبت خطر منحرف می‌شوند، برای تفسیر چنین مطالعاتی محوری است. این مدخل روش را توصیف می‌کند و مبنایی برای تصمیمات تشخیصی یا درمانی فردی نیست.

Epidemiology

رگرسیون لجستیک تحلیل طبیعی برای مطالعات مورد-شاهدی است، جایی که نسبت شانس معیار قابل برآورد برای ارتباط است، و به طور گسترده در مطالعات کوهورت و مقطعی برای به دست آوردن برآوردهای اثر تعدیل‌شده برای پیامدهای دوتایی استفاده می‌شود. هنگامی که پیامد در یک کوهورت شایع است، نسبت شانس از نسبت خطر فاصله می‌گیرد، و تحلیلگران ممکن است روش‌هایی را ترجیح دهند که نسبت خطر را مستقیماً برآورد می‌کنند.

Evidence & guidelines

متن هاسمر، لمشو و استوردیوانت یک مرجع استاندارد برای برازش و ارزیابی مدل‌های لجستیک است. گزارش مدل‌های پیش‌بینی ساخته شده با رگرسیون لجستیک توسط بیانیه TRIPOD پوشش داده می‌شود، و مطالعات روش‌شناختی راهنمایی‌هایی در مورد اندازه نمونه مانند رویدادها به ازای هر متغیر ارائه می‌دهند.

History

تابع لجستیک ریشه‌هایی در قرن نوزدهم در رشد جمعیت دارد، و استفاده از آن برای رگرسیون دوتایی در اواسط قرن بیستم توسعه یافت، با کار دیوید کاکس که این روش را برای تحلیل داده‌های دوتایی تثبیت کرد. این روش به یک ابزار اصلی در اپیدمیولوژی تبدیل شد، به ویژه برای تحلیل مورد-شاهدی که در آن نسبت شانس معیار طبیعی است. ادبیات روش‌شناختی بعدی به مسائل عملی از جمله اندازه نمونه، جدایی، و واگرایی نسبت شانس از نسبت خطر پرداخت.

Debates

چند رویداد پیامد به ازای هر پیش‌بینی‌کننده لازم است؟: یک قانون دیرینه حدود ده رویداد به ازای هر متغیر توسط کارهای شبیه‌سازی حمایت شد، اما مطالعات بعدی استدلال کردند که این قانون محافظه‌کارانه و وابسته به زمینه است، به طوری که گاهی اوقات تعداد کمتری از رویدادها ممکن است کافی باشد در حالی که در موارد دیگر ممکن است به تعداد بیشتری نیاز باشد.
آیا باید از نسبت شانس زمانی که پیامد شایع است استفاده کرد؟: هنگامی که یک پیامد شایع است، نسبت شانس نسبت خطر را بیش از حد نشان می‌دهد و می‌تواند به عنوان یک خطر نسبی اشتباه تفسیر شود؛ جایگزین‌هایی مانند رگرسیون پواسون اصلاح‌شده نسبت خطر را مستقیماً برآورد می‌کنند و برای مطالعات آینده‌نگر با پیامدهای دوتایی پیشنهاد شده‌اند.

Key figures

David Cox
David Hosmer
Stanley Lemeshow
Peter Peduzzi
Eric Vittinghoff

Seminal works

hosmer-2013
peduzzi-1996

Frequently asked questions

چرا رگرسیون لجستیک نسبت شانس را گزارش می‌کند؟: از آنجا که مدل در مقیاس لگاریتم شانس خطی است، هر ضریب نشان‌دهنده تغییری در لگاریتم شانس است، و توان‌رسانی آن یک نسبت شانس را به دست می‌دهد. بنابراین نسبت شانس معیار اثر طبیعی است که مدل برای یک پیامد دوتایی تولید می‌کند.
چه زمانی نسبت شانس تقریب ضعیفی برای نسبت خطر است؟: هنگامی که پیامد شایع است، نسبت شانس از نسبت خطر منحرف شده و آن را بیش از حد نشان می‌دهد. در این وضعیت، اگر نسبت شانس به عنوان یک خطر نسبی خوانده شود، می‌تواند گمراه‌کننده باشد، و روش‌هایی که نسبت خطر را مستقیماً برآورد می‌کنند ممکن است ارجح باشند.