การประมวลผลภาษาธรรมชาติในเอกสารทางการแพทย์
ข้อมูลทางคลินิกจำนวนมากถูกบันทึกในรูปแบบข้อความอิสระ บันทึกบรรยาย สรุปการจำหน่ายผู้ป่วย รายงานรังสีวิทยาและพยาธิวิทยา แทนที่จะเป็นรหัสที่มีโครงสร้าง การประมวลผลภาษาธรรมชาติ (NLP) ในเอกสารทางการแพทย์คือชุดของวิธีการคำนวณที่สกัดข้อมูลที่มีโครงสร้างและเครื่องจักรสามารถนำไปใช้ได้จากข้อความเหล่านั้น เพื่อสนับสนุนงานต่างๆ ตั้งแต่การเข้ารหัสและการระบุกลุ่มประชากรไปจนถึงการป้อนข้อมูลเข้าสู่ระบบสนับสนุนการตัดสินใจและระบบการทำนายผล
Definition
การประมวลผลภาษาธรรมชาติทางคลินิกคือการประยุกต์ใช้วิธีการทางภาษาศาสตร์เชิงคำนวณกับข้อความอิสระทางคลินิก เพื่อระบุ ทำให้เป็นมาตรฐาน และจัดโครงสร้างข้อมูลที่บรรจุอยู่ ตัวอย่างเช่น การจับคู่การกล่าวถึงภาวะอาการ การค้นพบ และยา ไปยังแนวคิดที่เข้ารหัส โดยคำนึงถึงบริบท เช่น การปฏิเสธและความไม่แน่นอน
Scope
บทความนี้ครอบคลุมงานหลักของ NLP ที่นำมาใช้กับบันทึกทางการแพทย์ เช่น การแบ่งคำ (tokenisation) การรู้จำเอนทิตีที่มีชื่อ (named-entity recognition) การทำให้แนวคิดเป็นมาตรฐานตามอภิธานศัพท์ควบคุม (concept normalisation to controlled terminologies) การตรวจจับการปฏิเสธและการยืนยัน (negation and assertion detection) และการสกัดความสัมพันธ์ (relation extraction); ระบบท่อส่งข้อมูล (pipelines) ของ NLP ทางคลินิกที่เป็นที่ยอมรับ; ความยากลำบากเฉพาะของภาษาทางคลินิก; และการเปลี่ยนผ่านจากวิธีการที่อิงกฎไปสู่วิธีการทางสถิติและโครงข่ายประสาทเทียม หัวข้อนี้เป็นเรื่องเกี่ยวกับระเบียบวิธีที่อธิบายถึงวิธีการประมวลผลข้อความ ไม่ใช่แหล่งที่มาของคำแนะนำทางคลินิก
Key concepts
- การรู้จำเอนทิตีที่มีชื่อและการทำให้แนวคิดเป็นมาตรฐาน
- การตรวจจับการปฏิเสธและการยืนยัน
- การสกัดข้อมูลและการสกัดความสัมพันธ์
- การจับคู่แนวคิดกับ UMLS / อภิธานศัพท์ควบคุม
- ระบบท่อส่งข้อมูล NLP ทางคลินิก (เช่น cTAKES)
- วิธีการที่อิงกฎ เทียบกับ วิธีการทางสถิติ เทียบกับ วิธีการโครงข่ายประสาทเทียม
- การปกปิดข้อมูลส่วนบุคคลในข้อความทางคลินิก
- ความกำกวม คำย่อ และการเปลี่ยนแปลงโดเมน
Mechanisms
NLP ทางคลินิกโดยทั่วไปจะเชื่อมโยงขั้นตอนต่างๆ เข้าด้วยกัน: การแบ่งส่วนและการแบ่งคำในข้อความ การรู้จำการกล่าวถึงที่เกี่ยวข้องทางคลินิก การทำให้เป็นมาตรฐานตามแนวคิดในอภิธานศัพท์ควบคุม และการตรวจจับบริบท เช่น การปฏิเสธ ความไม่แน่นอน หรือว่าการค้นพบนั้นอ้างถึงผู้ป่วยหรือสมาชิกในครอบครัว ระบบท่อส่งข้อมูลแบบเปิด เช่น cTAKES ได้รวมส่วนประกอบเหล่านี้สำหรับบันทึกทางการแพทย์และจับคู่คำที่สกัดได้กับแนวคิดที่เป็นมาตรฐาน (Savova, 2010) การทำให้แนวคิดเป็นมาตรฐานอาศัยการบูรณาการทรัพยากรต่างๆ เช่น UMLS ซึ่งเชื่อมโยงอภิธานศัพท์ต้นทางหลายแหล่งเข้าด้วยกัน เพื่อให้รูปแบบพื้นผิวที่หลากหลายสามารถแปลงเป็นตัวระบุร่วมกันได้ (Bodenreider, 2004) สาขาวิชานี้ได้เปลี่ยนจากกฎที่สร้างด้วยมือไปสู่แบบจำลองทางสถิติและโครงข่ายประสาทเทียม ในขณะที่งานพื้นฐานยังคงสอดคล้องกัน (Nadkarni, 2011)
Clinical relevance
เนื่องจากรายละเอียดที่มีความหมายทางคลินิกจำนวนมากอยู่ในบันทึกบรรยาย NLP จึงเป็นตัวกำหนดว่ารายละเอียดเหล่านั้นจะสามารถนำไปใช้ในการเข้ารหัส การวัดคุณภาพ การเลือกกลุ่มประชากร และการสนับสนุนการตัดสินใจในขั้นตอนต่อไปได้มากน้อยเพียงใด บทความนี้อธิบายถึงวิธีการประมวลผลและจัดโครงสร้างข้อความทางคลินิก ข้อมูลที่สกัดได้จำเป็นต้องมีการตรวจสอบความถูกต้องและการกำกับดูแลโดยมนุษย์ และข้อความนี้ไม่ใช่พื้นฐานสำหรับการวินิจฉัยหรือการตัดสินใจในการรักษาของผู้ป่วยแต่ละราย
Evidence & guidelines
NLP ทางคลินิกได้รับการประเมินส่วนใหญ่ผ่านตัวชี้วัดประสิทธิภาพเฉพาะงานและความท้าทายในการประเมินร่วมกัน มากกว่าการทดลองผลลัพธ์ทางคลินิก บทความเบื้องต้นและบทความเกี่ยวกับระบบได้บันทึกระบบท่อส่งข้อมูลมาตรฐานและส่วนประกอบต่างๆ (Nadkarni, 2011; Savova, 2010) และการทำให้แนวคิดเป็นมาตรฐานขึ้นอยู่กับการบูรณาการอภิธานศัพท์ต่างๆ เช่น UMLS (Bodenreider, 2004) เป็นที่ทราบกันดีว่าประสิทธิภาพอาจแตกต่างกันไปในแต่ละสถาบันและประเภทของบันทึก ดังนั้นจึงเน้นย้ำถึงการตรวจสอบความถูกต้องในระดับท้องถิ่น
History
NLP ทางคลินิกเติบโตมาจากระบบประมวลผลภาษาทางการแพทย์ยุคแรกเริ่มและการจับคู่รูปแบบที่อิงกฎ โดยพัฒนาเต็มที่ในช่วงทศวรรษ 2000 ด้วยระบบท่อส่งข้อมูลแบบโอเพนซอร์สที่นำกลับมาใช้ใหม่ได้และความท้าทายในการประเมินร่วมกันที่ทำให้งานและเกณฑ์มาตรฐานเป็นมาตรฐาน ตลอดช่วงทศวรรษ 2010 สาขาวิชานี้ได้เปลี่ยนจากวิธีการที่อิงกฎและวิธีการเรียนรู้ของเครื่องแบบคลาสสิกไปสู่แบบจำลองโครงข่ายประสาทเทียม และต่อมาคือแบบจำลองภาษาที่ใช้ Transformer ในขณะที่ยังคงรักษางานหลักในการสกัดและทำให้เป็นมาตรฐานแบบเดิมไว้
Debates
- ระบบ NLP ทางคลินิกสามารถนำไปใช้กับสถานที่ต่างๆ ได้มากน้อยเพียงใด?
- แบบจำลองและกฎที่ปรับแต่งกับบันทึกของสถาบันหนึ่งมักจะทำงานได้ไม่ดีนักกับบันทึกของอีกสถาบันหนึ่ง เนื่องจากความแตกต่างในแม่แบบ คำย่อ และรูปแบบการบันทึก ซึ่งก่อให้เกิดการถกเถียงเกี่ยวกับความสามารถในการสรุปผล ความจำเป็นในการปรับใช้ในท้องถิ่น และคลังข้อมูลที่มีการอธิบายประกอบร่วมกัน
Key figures
- Wendy W. Chapman
- Guergana K. Savova
- Prakash M. Nadkarni
- Lucila Ohno-Machado
Related topics
Seminal works
- nadkarni-2011
- savova-2010
- bodenreider-2004
Frequently asked questions
- เหตุใดการประมวลผลข้อความทางคลินิกจึงยากกว่าข้อความทั่วไป?
- บันทึกทางคลินิกเต็มไปด้วยคำย่อ การสะกดผิด ส่วนย่อยที่เป็นแม่แบบ และคำศัพท์เฉพาะทาง และความหมายมักขึ้นอยู่กับบริบท เช่น การปฏิเสธหรือไม่แน่นอน ซึ่งทั้งหมดนี้ทำให้การสกัดข้อมูลที่ถูกต้องทำได้ยากกว่าการเขียนร้อยแก้วทั่วไป
- การทำให้แนวคิดเป็นมาตรฐานใน NLP ทางคลินิกคืออะไร?
- เป็นขั้นตอนของการจับคู่การกล่าวถึงในข้อความ เช่น 'heart attack' หรือ 'MI' ไปยังแนวคิดมาตรฐานเดียวในอภิธานศัพท์ควบคุม เพื่อให้รูปแบบพื้นผิวที่แตกต่างกันของแนวคิดเดียวกันสามารถได้รับการปฏิบัติอย่างสอดคล้องกันโดยระบบปลายน้ำ