تفاوت بین تمایز و کالیبراسیون چیست؟

تمایز توانایی یک مدل برای رتبهبندی بیماران است به گونهای که افرادی که پیامد را تجربه میکنند، ریسکهای پیشبینی شده بالاتری نسبت به افرادی که تجربه نمیکنند، دریافت کنند، در حالی که کالیبراسیون توافق بین احتمالات پیشبینی شده و فراوانیهای مشاهده شده است؛ یک مدل میتواند به خوبی تمایز قائل شود اما کالیبراسیون ضعیفی داشته باشد، بنابراین هر دو مهم هستند.

چرا اعتبارسنجی خارجی برای مدلهای پیشبینی بالینی مهم است؟

مدلها اغلب بر روی دادههایی که برای ساخت آنها استفاده شده است، عملکرد خوشبینانهای دارند؛ آزمایش بر روی جمعیتها و محیطهای مستقل نشان میدهد که یک مدل چقدر خوب تعمیم مییابد و از استقرار ابزارهایی که در صورت تفاوت ترکیب موارد یا مستندات با دادههای توسعه، شکست میخورند، جلوگیری میکند.

یادگیری ماشینی و تحلیل‌های پیش‌بینانه در مراقبت‌های بالینی

یادگیری ماشینی و تحلیل‌های پیش‌بینانه از الگوهای موجود در داده‌های بالینی و سلامت برای تخمین احتمال پیامدها، مانند تشخیص‌ها، وخامت حال، بستری مجدد، یا پاسخ به درمان، برای بیماران منفرد استفاده می‌کنند. این موضوع به چگونگی توسعه، اعتبارسنجی و گزارش‌دهی مدل‌های پیش‌بینی بالینی و استانداردهای روش‌شناختی که مدل‌های قابل اعتماد را از مدل‌های گمراه‌کننده متمایز می‌کنند، می‌پردازد.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics

Tools & resources

دریافت اسلایدها

Learn & explore

ویدیوبه‌زودی

Definition

یادگیری ماشینی بالینی عبارت است از استفاده از الگوریتم‌هایی که روابط آماری را از داده‌های بیمار برای پیش‌بینی پیامدهای بالینی مرتبط می‌آموزند؛ یک مدل پیش‌بینی بالینی چندین پیش‌بینی‌کننده را ترکیب می‌کند تا احتمال تشخیص (تشخیصی) یا یک رویداد آینده (پیش‌آگهی) را برای یک فرد تخمین بزند.

Scope

این مدخل یادگیری نظارت‌شده برای تشخیص و پیش‌آگهی، منابع داده و ویژگی‌های مورد استفاده در محیط‌های بالینی، مفاهیم مرکزی اعتبارسنجی شامل تمایز، کالیبراسیون و اعتبارسنجی خارجی، خطرات سوگیری و بیش‌برازش، و استانداردهای گزارش‌دهی و ارزیابی مانند TRIPOD و PROBAST را پوشش می‌دهد. این موضوع یادگیری ماشینی بالینی را به عنوان یک مبحث روش‌شناختی، با توصیف چگونگی ساخت و قضاوت ابزارهای پیش‌بینانه به جای ارائه توصیه‌های بالینی، چارچوب‌بندی می‌کند.

Key concepts

یادگیری نظارت‌شده (تشخیص و پیش‌آگهی)
تمایز، کالیبراسیون و سودمندی بالینی
اعتبارسنجی داخلی و خارجی
بیش‌برازش و خوش‌بینی
تغییر مجموعه داده و قابلیت تعمیم
سوگیری الگوریتمی و انصاف
استانداردهای گزارش‌دهی (TRIPOD) و ارزیابی خطر سوگیری (PROBAST)
یادگیری عمیق و یادگیری ویژگی

Mechanisms

یک مدل پیش‌بینی بالینی بر روی داده‌های برچسب‌گذاری شده (labelled data) برازش می‌شود و یاد می‌گیرد که چگونه پیش‌بینی‌کننده‌ها با یک پیامد مرتبط هستند، و سپس برای تمایز (میزان خوب جدا کردن افرادی که پیامد را تجربه می‌کنند از افرادی که تجربه نمی‌کنند) و کالیبراسیون (میزان تطابق خوب احتمالات پیش‌بینی شده با فراوانی‌های مشاهده شده) ارزیابی می‌شود. از آنجا که مدل‌ها تمایل دارند بر روی داده‌هایی که آن‌ها را آموزش داده‌اند، عملکرد خوش‌بینانه‌ای داشته باشند، اعتبارسنجی داخلی و به ویژه خارجی بر روی جمعیت‌های جدید ضروری است، و استقرار می‌تواند توسط تغییر مجموعه داده (dataset shift) تضعیف شود، زمانی که محیط هدف با محیط توسعه متفاوت است (Rajkomar, 2019). یادگیری عمیق این ایده‌ها را با یادگیری ویژگی‌ها مستقیماً از ورودی‌های خام مانند تصاویر، سیگنال‌ها یا متن گسترش می‌دهد، که می‌تواند عملکرد را در وظایف ادراکی بهبود بخشد در حالی که قابلیت تفسیر را پیچیده می‌کند (Esteva, 2019).

Clinical relevance

مدل‌های پیش‌بینانه به طور فزاینده‌ای امتیازات ریسک، هشدارهای اولیه و ابزارهای تریاژ را که در سیستم‌های بالینی تعبیه شده‌اند، تغذیه می‌کنند، بنابراین دقت، کالیبراسیون و انصاف آن‌ها مستقیماً بر کیفیت راهنمایی‌هایی که پزشکان دریافت می‌کنند، تأثیر می‌گذارد. این مدخل چگونگی توسعه و ارزیابی چنین مدل‌هایی را توصیف می‌کند؛ خروجی‌های مدل تخمین‌های احتمالی هستند که نیاز به تفسیر و نظارت بالینی دارند، و متن مبنایی برای هیچ تصمیم تشخیصی یا درمانی فردی نیست.

Evidence & guidelines

اجماع روش‌شناختی بر توسعه شفاف و اعتبارسنجی دقیق تأکید دارد. بیانیه TRIPOD استانداردهای گزارش‌دهی را برای مطالعات مدل پیش‌بینی تعیین می‌کند تا روش‌ها و عملکرد قابل ارزیابی باشند (Collins, 2015)، و PROBAST ابزاری ساختاریافته برای قضاوت خطر سوگیری و قابلیت کاربرد در چنین مطالعاتی ارائه می‌دهد (Wolff, 2019). بررسی‌های یادگیری ماشینی در پزشکی بر اعتبارسنجی خارجی، کالیبراسیون، توجه به سوگیری، و شکاف بین عملکرد گذشته‌نگر و مزایای بالینی آینده‌نگر تأکید دارند (Rajkomar, 2019; Esteva, 2019).

History

پیش‌بینی بالینی ریشه‌های طولانی در امتیازات ریسک مبتنی بر رگرسیون دارد، اما دهه ۲۰۱۰ شاهد رشد سریع یادگیری ماشینی و یادگیری عمیق بود که توسط سوابق الکترونیکی سلامت، تصویربرداری و مجموعه‌های داده بزرگ‌تر تغذیه می‌شد. در کنار این، نگرانی‌های فزاینده‌ای در مورد قابلیت تکرار، عملکرد اغراق‌آمیز و سوگیری به وجود آمد که چارچوب‌های گزارش‌دهی و ارزیابی (TRIPOD, PROBAST) را با هدف رعایت استانداردهای روش‌شناختی ثابت در مطالعات مدل، برانگیخت.

Debates

چرا بسیاری از مدل‌ها در عمل بدتر از مطالعات توسعه عمل می‌کنند؟: اعتبارسنجی خارجی ناکافی، تغییر مجموعه داده بین محیط‌های توسعه و استقرار، و گزارش‌دهی خوش‌بینانه به این معنی است که عملکرد قوی گذشته‌نگر اغلب نمی‌تواند به مزایای بالینی آینده‌نگر تبدیل شود، که انگیزه‌ای برای استانداردهای سخت‌گیرانه‌تر اعتبارسنجی و گزارش‌دهی است.
چگونه باید با سوگیری الگوریتمی و انصاف برخورد کرد؟: مدل‌های آموزش‌دیده بر روی داده‌های تاریخی می‌توانند نابرابری‌ها را کدگذاری و تقویت کنند، که بحث‌هایی را در مورد چگونگی اندازه‌گیری انصاف، زمان قابل قبول بودن تفاوت‌های عملکردی در بین گروه‌ها، و چگونگی نظارت بر مدل‌های مستقر برای سوگیری در طول زمان ایجاد می‌کند.

Key figures

Alvin Rajkomar
Gary S. Collins
Karel G. M. Moons
Isaac Kohane

Seminal works

rajkomar-2019
collins-2015
wolff-2019

Frequently asked questions

تفاوت بین تمایز و کالیبراسیون چیست؟: تمایز توانایی یک مدل برای رتبه‌بندی بیماران است به گونه‌ای که افرادی که پیامد را تجربه می‌کنند، ریسک‌های پیش‌بینی شده بالاتری نسبت به افرادی که تجربه نمی‌کنند، دریافت کنند، در حالی که کالیبراسیون توافق بین احتمالات پیش‌بینی شده و فراوانی‌های مشاهده شده است؛ یک مدل می‌تواند به خوبی تمایز قائل شود اما کالیبراسیون ضعیفی داشته باشد، بنابراین هر دو مهم هستند.
چرا اعتبارسنجی خارجی برای مدل‌های پیش‌بینی بالینی مهم است؟: مدل‌ها اغلب بر روی داده‌هایی که برای ساخت آن‌ها استفاده شده است، عملکرد خوش‌بینانه‌ای دارند؛ آزمایش بر روی جمعیت‌ها و محیط‌های مستقل نشان می‌دهد که یک مدل چقدر خوب تعمیم می‌یابد و از استقرار ابزارهایی که در صورت تفاوت ترکیب موارد یا مستندات با داده‌های توسعه، شکست می‌خورند، جلوگیری می‌کند.