Pemrosesan Bahasa Alami dalam Dokumentasi Klinis
Sebagian besar informasi klinis dicatat sebagai teks bebas, catatan naratif, ringkasan pulang, laporan radiologi dan patologi, bukan sebagai kode terstruktur. Pemrosesan bahasa alami (NLP) dalam dokumentasi klinis adalah serangkaian metode komputasi yang mengekstrak informasi terstruktur yang dapat digunakan mesin dari teks tersebut, mendukung tugas-tugas mulai dari pengkodean dan identifikasi kohort hingga pengisian sistem pendukung keputusan dan prediksi.
Definition
Pemrosesan bahasa alami klinis adalah penerapan metode linguistik komputasi pada teks bebas klinis untuk mengidentifikasi, menormalisasi, dan menstrukturkan informasi yang dikandungnya, misalnya memetakan penyebutan kondisi, temuan, dan pengobatan ke konsep terkode sambil mempertimbangkan konteks seperti negasi dan ketidakpastian.
Scope
Entri ini mencakup tugas-tugas inti NLP yang diterapkan pada narasi klinis, seperti tokenisasi, pengenalan entitas bernama, normalisasi konsep ke terminologi terkontrol, deteksi negasi dan asersi, serta ekstraksi relasi; alur kerja (pipeline) NLP klinis yang sudah mapan; kesulitan khusus bahasa klinis; dan pergeseran dari pendekatan berbasis aturan ke pendekatan statistik dan saraf. Ini adalah topik metodologis yang menjelaskan bagaimana teks diproses, bukan sumber rekomendasi klinis.
Key concepts
- Pengenalan entitas bernama dan normalisasi konsep
- Deteksi negasi dan asersi
- Ekstraksi informasi dan ekstraksi relasi
- Pemetaan konsep ke UMLS / terminologi terkontrol
- Alur kerja NLP klinis (misalnya, cTAKES)
- Metode berbasis aturan vs statistik vs saraf
- De-identifikasi teks klinis
- Ambiguitas, singkatan, dan pergeseran domain
Mechanisms
NLP klinis umumnya merangkai tahapan: segmentasi dan tokenisasi teks, pengenalan penyebutan yang relevan secara klinis, normalisasi penyebutan tersebut ke konsep dalam kosakata terkontrol, dan deteksi konteks seperti negasi, ketidakpastian, atau apakah suatu temuan merujuk pada pasien atau anggota keluarga. Alur kerja terbuka seperti cTAKES mengemas komponen-komponen ini untuk narasi klinis dan memetakan istilah yang diekstraksi ke konsep terstandardisasi (Savova, 2010). Normalisasi konsep bergantung pada integrasi sumber daya seperti UMLS, yang menghubungkan banyak kosakata sumber sehingga berbagai bentuk permukaan dapat diselesaikan menjadi pengidentifikasi umum (Bodenreider, 2004). Bidang ini telah bergeser dari aturan yang dibuat secara manual menuju model statistik dan saraf, sementara tugas-tugas dasarnya tetap konsisten (Nadkarni, 2011).
Clinical relevance
Karena begitu banyak detail yang bermakna secara klinis terdapat dalam catatan naratif, NLP menentukan seberapa banyak detail tersebut tersedia untuk pengkodean, pengukuran kualitas, pemilihan kohort, dan dukungan keputusan selanjutnya. Entri ini menjelaskan bagaimana teks klinis diproses dan distrukturkan; informasi yang diekstraksi memerlukan validasi dan pengawasan manusia, dan teks tersebut bukan dasar untuk keputusan diagnostik atau pengobatan individual apa pun.
Evidence & guidelines
NLP klinis dievaluasi terutama melalui metrik kinerja spesifik tugas dan tantangan evaluasi bersama daripada uji coba hasil klinis. Makalah pengantar dan sistem mendokumentasikan alur kerja standar dan komponen-komponennya (Nadkarni, 2011; Savova, 2010), dan normalisasi konsep bergantung pada integrasi terminologi seperti UMLS (Bodenreider, 2004). Kinerja diketahui bervariasi di berbagai institusi dan jenis catatan, sehingga validasi lokal ditekankan.
History
NLP klinis berkembang dari sistem pemrosesan bahasa medis awal dan pencocokan pola berbasis aturan, matang pada tahun 2000-an dengan alur kerja sumber terbuka yang dapat digunakan kembali dan tantangan evaluasi bersama yang menstandardisasi tugas dan tolok ukur. Sepanjang tahun 2010-an, bidang ini bergeser dari metode berbasis aturan dan pembelajaran mesin klasik menuju model bahasa saraf dan, kemudian, berbasis transformer, sambil mempertahankan tugas ekstraksi dan normalisasi inti yang sama.
Debates
- Seberapa portabel sistem NLP klinis di berbagai lokasi?
- Model dan aturan yang disesuaikan dengan catatan satu institusi sering kali menurun kinerjanya pada catatan institusi lain karena perbedaan dalam templat, singkatan, dan gaya dokumentasi, menimbulkan perdebatan tentang generalisasi, kebutuhan adaptasi lokal, dan korpora beranotasi bersama.
Key figures
- Wendy W. Chapman
- Guergana K. Savova
- Prakash M. Nadkarni
- Lucila Ohno-Machado
Related topics
Seminal works
- nadkarni-2011
- savova-2010
- bodenreider-2004
Frequently asked questions
- Mengapa memproses teks klinis lebih sulit daripada teks umum?
- Catatan klinis padat dengan singkatan, salah eja, fragmen templat, dan istilah spesifik domain, dan makna sering kali bergantung pada konteks seperti negasi atau ketidakpastian, yang semuanya membuat ekstraksi akurat lebih sulit daripada prosa biasa.
- Apa itu normalisasi konsep dalam NLP klinis?
- Ini adalah langkah memetakan penyebutan tekstual, seperti 'serangan jantung' atau 'MI', ke satu konsep terstandardisasi dalam kosakata terkontrol, sehingga berbagai bentuk permukaan dari ide yang sama dapat diperlakukan secara konsisten oleh sistem selanjutnya.