پردازش زبان طبیعی در مستندات بالینی
بخش بزرگی از اطلاعات بالینی به جای کدهای ساختاریافته، به صورت متن آزاد، یادداشتهای روایی، خلاصههای ترخیص، گزارشهای رادیولوژی و پاتولوژی ثبت میشود. پردازش زبان طبیعی (NLP) در مستندات بالینی مجموعهای از روشهای محاسباتی است که اطلاعات ساختاریافته و قابل استفاده توسط ماشین را از این متون استخراج میکند و از وظایفی مانند کدگذاری و شناسایی گروه همخون تا تغذیه سیستمهای پشتیبانی تصمیم و پیشبینی را پشتیبانی میکند.
Definition
پردازش زبان طبیعی بالینی، کاربرد روشهای زبانشناسی محاسباتی در متن آزاد بالینی به منظور شناسایی، نرمالسازی و ساختاربندی اطلاعات موجود در آن است، به عنوان مثال نگاشت ارجاعات به شرایط، یافتهها و داروها به مفاهیم کدگذاری شده، با در نظر گرفتن زمینههایی مانند نفی و عدم قطعیت.
Scope
این مدخل وظایف اصلی NLP را که در روایتهای بالینی به کار میروند، مانند قطعهبندی (tokenisation)، شناسایی موجودیت نامگذاری شده (named-entity recognition)، نرمالسازی مفهوم به اصطلاحات کنترلشده، تشخیص نفی و تأیید، و استخراج رابطه را پوشش میدهد؛ همچنین خطوط لوله (pipelines) تثبیتشده NLP بالینی؛ مشکلات خاص زبان بالینی؛ و حرکت از رویکردهای مبتنی بر قاعده به رویکردهای آماری و عصبی را مورد بررسی قرار میدهد. این یک موضوع روششناختی است که نحوه پردازش متن را توصیف میکند، نه منبعی برای توصیههای بالینی.
Key concepts
- شناسایی موجودیت نامگذاری شده و نرمالسازی مفهوم
- تشخیص نفی و تأیید
- استخراج اطلاعات و استخراج رابطه
- نگاشت مفهوم به UMLS / اصطلاحات کنترلشده
- خطوط لوله NLP بالینی (مانند cTAKES)
- روشهای مبتنی بر قاعده در مقابل آماری در مقابل عصبی
- حذف هویت از متن بالینی
- ابهام، اختصار و تغییر دامنه
Mechanisms
NLP بالینی معمولاً شامل مراحل زنجیرهای است: تقسیمبندی و قطعهبندی متن، شناسایی ارجاعات مرتبط بالینی، نرمالسازی آنها به مفاهیم در یک واژگان کنترلشده، و تشخیص زمینه مانند نفی، عدم قطعیت، یا اینکه آیا یک یافته به بیمار یا یکی از اعضای خانواده اشاره دارد. خطوط لوله باز مانند cTAKES این اجزا را برای روایتهای بالینی بستهبندی کرده و اصطلاحات استخراجشده را به مفاهیم استاندارد نگاشت کردهاند (Savova, 2010). نرمالسازی مفهوم به ادغام منابعی مانند UMLS متکی است که بسیاری از واژگان منبع را به هم پیوند میدهد تا اشکال سطحی مختلف به شناسههای مشترک حل شوند (Bodenreider, 2004). این حوزه از قوانین دستساز به سمت مدلهای آماری و عصبی حرکت کرده است، در حالی که وظایف اساسی ثابت باقی ماندهاند (Nadkarni, 2011).
Clinical relevance
از آنجا که بسیاری از جزئیات بالینی معنیدار در یادداشتهای روایی وجود دارد، NLP تعیین میکند که چه مقدار از این جزئیات برای کدگذاری، اندازهگیری کیفیت، انتخاب گروه همخون و پشتیبانی تصمیمگیریهای بعدی در دسترس قرار میگیرد. این مدخل نحوه پردازش و ساختاربندی متن بالینی را توصیف میکند؛ اطلاعات استخراجشده نیاز به اعتبارسنجی و نظارت انسانی دارد و متن مبنایی برای هیچ تصمیم تشخیصی یا درمانی فردی نیست.
Evidence & guidelines
NLP بالینی عمدتاً از طریق معیارهای عملکرد خاص وظیفه و چالشهای ارزیابی مشترک، و نه آزمایشهای پیامد بالینی، ارزیابی میشود. مقالات مقدماتی و سیستمی خط لوله استاندارد و اجزای آن را مستند میکنند (Nadkarni, 2011; Savova, 2010)، و نرمالسازی مفهوم به ادغام اصطلاحات مانند UMLS بستگی دارد (Bodenreider, 2004). عملکرد در بین مؤسسات و انواع یادداشتها متفاوت است، بنابراین بر اعتبارسنجی محلی تأکید میشود.
History
NLP بالینی از سیستمهای اولیه پردازش زبان پزشکی و تطبیق الگو مبتنی بر قاعده رشد کرد و در دهه ۲۰۰۰ با خطوط لوله منبع باز قابل استفاده مجدد و چالشهای ارزیابی مشترک که وظایف و معیارهای استاندارد را تعیین کردند، به بلوغ رسید. در طول دهه ۲۰۱۰، این حوزه از روشهای مبتنی بر قاعده و یادگیری ماشین کلاسیک به سمت مدلهای زبانی عصبی و سپس مبتنی بر ترانسفورمر تغییر یافت، در حالی که وظایف اصلی استخراج و نرمالسازی را حفظ کرد.
Debates
- سیستمهای NLP بالینی چقدر در بین سایتها قابل انتقال هستند؟
- مدلها و قوانینی که بر اساس یادداشتهای یک مؤسسه تنظیم شدهاند، اغلب به دلیل تفاوت در الگوها، اختصارات و سبک مستندسازی، در مؤسسات دیگر عملکرد ضعیفتری دارند، که بحثهایی را در مورد قابلیت تعمیم، نیاز به انطباق محلی و پیکرههای متنی حاشیهنویسی شده مشترک ایجاد میکند.
Key figures
- Wendy W. Chapman
- Guergana K. Savova
- Prakash M. Nadkarni
- Lucila Ohno-Machado
Related topics
Seminal works
- nadkarni-2011
- savova-2010
- bodenreider-2004
Frequently asked questions
- چرا پردازش متن بالینی دشوارتر از متن عمومی است؟
- یادداشتهای بالینی مملو از اختصارات، غلطهای املایی، قطعات قالبی و اصطلاحات خاص دامنه هستند، و معنا اغلب به زمینههایی مانند نفی یا عدم قطعیت بستگی دارد، که همه اینها استخراج دقیق را دشوارتر از نثر معمولی میکند.
- نرمالسازی مفهوم در NLP بالینی چیست؟
- این مرحله نگاشت یک ارجاع متنی، مانند 'حمله قلبی' یا 'MI'، به یک مفهوم استاندارد واحد در یک واژگان کنترلشده است، به طوری که اشکال سطحی مختلف یک ایده مشابه میتوانند به طور سازگار توسط سیستمهای بعدی پردازش شوند.