یادگیری ماشینی و تحلیلهای پیشبینانه در مراقبتهای بالینی
یادگیری ماشینی و تحلیلهای پیشبینانه از الگوهای موجود در دادههای بالینی و سلامت برای تخمین احتمال پیامدها، مانند تشخیصها، وخامت حال، بستری مجدد، یا پاسخ به درمان، برای بیماران منفرد استفاده میکنند. این موضوع به چگونگی توسعه، اعتبارسنجی و گزارشدهی مدلهای پیشبینی بالینی و استانداردهای روششناختی که مدلهای قابل اعتماد را از مدلهای گمراهکننده متمایز میکنند، میپردازد.
Definition
یادگیری ماشینی بالینی عبارت است از استفاده از الگوریتمهایی که روابط آماری را از دادههای بیمار برای پیشبینی پیامدهای بالینی مرتبط میآموزند؛ یک مدل پیشبینی بالینی چندین پیشبینیکننده را ترکیب میکند تا احتمال تشخیص (تشخیصی) یا یک رویداد آینده (پیشآگهی) را برای یک فرد تخمین بزند.
Scope
این مدخل یادگیری نظارتشده برای تشخیص و پیشآگهی، منابع داده و ویژگیهای مورد استفاده در محیطهای بالینی، مفاهیم مرکزی اعتبارسنجی شامل تمایز، کالیبراسیون و اعتبارسنجی خارجی، خطرات سوگیری و بیشبرازش، و استانداردهای گزارشدهی و ارزیابی مانند TRIPOD و PROBAST را پوشش میدهد. این موضوع یادگیری ماشینی بالینی را به عنوان یک مبحث روششناختی، با توصیف چگونگی ساخت و قضاوت ابزارهای پیشبینانه به جای ارائه توصیههای بالینی، چارچوببندی میکند.
Key concepts
- یادگیری نظارتشده (تشخیص و پیشآگهی)
- تمایز، کالیبراسیون و سودمندی بالینی
- اعتبارسنجی داخلی و خارجی
- بیشبرازش و خوشبینی
- تغییر مجموعه داده و قابلیت تعمیم
- سوگیری الگوریتمی و انصاف
- استانداردهای گزارشدهی (TRIPOD) و ارزیابی خطر سوگیری (PROBAST)
- یادگیری عمیق و یادگیری ویژگی
Mechanisms
یک مدل پیشبینی بالینی بر روی دادههای برچسبگذاری شده (labelled data) برازش میشود و یاد میگیرد که چگونه پیشبینیکنندهها با یک پیامد مرتبط هستند، و سپس برای تمایز (میزان خوب جدا کردن افرادی که پیامد را تجربه میکنند از افرادی که تجربه نمیکنند) و کالیبراسیون (میزان تطابق خوب احتمالات پیشبینی شده با فراوانیهای مشاهده شده) ارزیابی میشود. از آنجا که مدلها تمایل دارند بر روی دادههایی که آنها را آموزش دادهاند، عملکرد خوشبینانهای داشته باشند، اعتبارسنجی داخلی و به ویژه خارجی بر روی جمعیتهای جدید ضروری است، و استقرار میتواند توسط تغییر مجموعه داده (dataset shift) تضعیف شود، زمانی که محیط هدف با محیط توسعه متفاوت است (Rajkomar, 2019). یادگیری عمیق این ایدهها را با یادگیری ویژگیها مستقیماً از ورودیهای خام مانند تصاویر، سیگنالها یا متن گسترش میدهد، که میتواند عملکرد را در وظایف ادراکی بهبود بخشد در حالی که قابلیت تفسیر را پیچیده میکند (Esteva, 2019).
Clinical relevance
مدلهای پیشبینانه به طور فزایندهای امتیازات ریسک، هشدارهای اولیه و ابزارهای تریاژ را که در سیستمهای بالینی تعبیه شدهاند، تغذیه میکنند، بنابراین دقت، کالیبراسیون و انصاف آنها مستقیماً بر کیفیت راهنماییهایی که پزشکان دریافت میکنند، تأثیر میگذارد. این مدخل چگونگی توسعه و ارزیابی چنین مدلهایی را توصیف میکند؛ خروجیهای مدل تخمینهای احتمالی هستند که نیاز به تفسیر و نظارت بالینی دارند، و متن مبنایی برای هیچ تصمیم تشخیصی یا درمانی فردی نیست.
Evidence & guidelines
اجماع روششناختی بر توسعه شفاف و اعتبارسنجی دقیق تأکید دارد. بیانیه TRIPOD استانداردهای گزارشدهی را برای مطالعات مدل پیشبینی تعیین میکند تا روشها و عملکرد قابل ارزیابی باشند (Collins, 2015)، و PROBAST ابزاری ساختاریافته برای قضاوت خطر سوگیری و قابلیت کاربرد در چنین مطالعاتی ارائه میدهد (Wolff, 2019). بررسیهای یادگیری ماشینی در پزشکی بر اعتبارسنجی خارجی، کالیبراسیون، توجه به سوگیری، و شکاف بین عملکرد گذشتهنگر و مزایای بالینی آیندهنگر تأکید دارند (Rajkomar, 2019; Esteva, 2019).
History
پیشبینی بالینی ریشههای طولانی در امتیازات ریسک مبتنی بر رگرسیون دارد، اما دهه ۲۰۱۰ شاهد رشد سریع یادگیری ماشینی و یادگیری عمیق بود که توسط سوابق الکترونیکی سلامت، تصویربرداری و مجموعههای داده بزرگتر تغذیه میشد. در کنار این، نگرانیهای فزایندهای در مورد قابلیت تکرار، عملکرد اغراقآمیز و سوگیری به وجود آمد که چارچوبهای گزارشدهی و ارزیابی (TRIPOD, PROBAST) را با هدف رعایت استانداردهای روششناختی ثابت در مطالعات مدل، برانگیخت.
Debates
- چرا بسیاری از مدلها در عمل بدتر از مطالعات توسعه عمل میکنند؟
- اعتبارسنجی خارجی ناکافی، تغییر مجموعه داده بین محیطهای توسعه و استقرار، و گزارشدهی خوشبینانه به این معنی است که عملکرد قوی گذشتهنگر اغلب نمیتواند به مزایای بالینی آیندهنگر تبدیل شود، که انگیزهای برای استانداردهای سختگیرانهتر اعتبارسنجی و گزارشدهی است.
- چگونه باید با سوگیری الگوریتمی و انصاف برخورد کرد؟
- مدلهای آموزشدیده بر روی دادههای تاریخی میتوانند نابرابریها را کدگذاری و تقویت کنند، که بحثهایی را در مورد چگونگی اندازهگیری انصاف، زمان قابل قبول بودن تفاوتهای عملکردی در بین گروهها، و چگونگی نظارت بر مدلهای مستقر برای سوگیری در طول زمان ایجاد میکند.
Key figures
- Alvin Rajkomar
- Gary S. Collins
- Karel G. M. Moons
- Isaac Kohane
Related topics
Seminal works
- rajkomar-2019
- collins-2015
- wolff-2019
Frequently asked questions
- تفاوت بین تمایز و کالیبراسیون چیست؟
- تمایز توانایی یک مدل برای رتبهبندی بیماران است به گونهای که افرادی که پیامد را تجربه میکنند، ریسکهای پیشبینی شده بالاتری نسبت به افرادی که تجربه نمیکنند، دریافت کنند، در حالی که کالیبراسیون توافق بین احتمالات پیشبینی شده و فراوانیهای مشاهده شده است؛ یک مدل میتواند به خوبی تمایز قائل شود اما کالیبراسیون ضعیفی داشته باشد، بنابراین هر دو مهم هستند.
- چرا اعتبارسنجی خارجی برای مدلهای پیشبینی بالینی مهم است؟
- مدلها اغلب بر روی دادههایی که برای ساخت آنها استفاده شده است، عملکرد خوشبینانهای دارند؛ آزمایش بر روی جمعیتها و محیطهای مستقل نشان میدهد که یک مدل چقدر خوب تعمیم مییابد و از استقرار ابزارهایی که در صورت تفاوت ترکیب موارد یا مستندات با دادههای توسعه، شکست میخورند، جلوگیری میکند.