临床文档中的自然语言处理
大量的临床信息以自由文本、叙述性笔记、出院总结、放射学和病理学报告的形式记录,而非结构化代码。临床文档中的自然语言处理(NLP)是一套计算方法,用于从这些文本中提取结构化的、机器可用的信息,支持从编码和队列识别到为决策支持和预测系统提供数据等任务。
Definition
临床自然语言处理是将计算语言学方法应用于临床自由文本,以识别、规范化和结构化其中包含的信息,例如将对疾病、发现和药物的提及映射到编码概念,同时考虑否定和不确定性等上下文。
Scope
本条目涵盖应用于临床叙述的核心NLP任务,例如分词、命名实体识别、概念规范化为受控术语、否定和断言检测以及关系抽取;已建立的临床NLP流程;临床语言的特殊困难;以及从基于规则的方法向统计和神经方法的转变。这是一个描述文本如何处理的方法论主题,而非临床建议的来源。
Key concepts
- 命名实体识别和概念规范化
- 否定和断言检测
- 信息抽取和关系抽取
- 概念映射到UMLS / 受控术语
- 临床NLP流程(例如,cTAKES)
- 基于规则 vs 统计 vs 神经方法
- 临床文本去识别化
- 歧义、缩写和领域转移
Mechanisms
临床NLP通常是阶段性链式操作:分割和分词文本,识别临床相关的提及,将其规范化为受控词汇中的概念,并检测否定、不确定性或发现是否指患者或家庭成员等上下文。cTAKES等开放流程将这些组件打包用于临床叙述,并将提取的术语映射到标准化概念(Savova, 2010)。概念规范化依赖于整合UMLS等资源,这些资源连接了许多源词汇表,使得不同的表面形式可以解析为共同的标识符(Bodenreider, 2004)。该领域已从手工构建的规则转向统计和神经模型,而底层任务保持一致(Nadkarni, 2011)。
Clinical relevance
由于大量具有临床意义的细节存在于叙述性笔记中,NLP决定了这些细节有多少可用于编码、质量测量、队列选择和下游决策支持。本条目描述了临床文本如何被处理和结构化;提取的信息需要验证和人工监督,并且文本不能作为任何个体诊断或治疗决策的基础。
Evidence & guidelines
临床NLP主要通过任务特定的性能指标和共享评估挑战进行评估,而非临床结果试验。介绍性论文和系统论文记录了标准流程及其组件(Nadkarni, 2011; Savova, 2010),概念规范化依赖于整合UMLS等术语(Bodenreider, 2004)。已知性能因机构和笔记类型而异,因此强调本地验证。
History
临床NLP从早期的医学语言处理系统和基于规则的模式匹配发展而来,在2000年代随着可重用开源流程和标准化任务与基准的共享评估挑战而成熟。在2010年代,该领域从基于规则和经典机器学习方法转向神经模型,随后是基于Transformer的语言模型,同时保留了相同的核心提取和规范化任务。
Debates
- 临床NLP系统在不同机构之间的可移植性如何?
- 在一个机构的笔记上调整的模型和规则在另一个机构上往往会因为模板、缩写和文档风格的差异而性能下降,这引发了关于泛化性、本地适应需求和共享标注语料库的争论。
Key figures
- Wendy W. Chapman
- Guergana K. Savova
- Prakash M. Nadkarni
- Lucila Ohno-Machado
Related topics
Seminal works
- nadkarni-2011
- savova-2010
- bodenreider-2004
Frequently asked questions
- 为什么处理临床文本比处理一般文本更难?
- 临床笔记中充满了缩写、拼写错误、模板片段和领域特定术语,而且意义往往取决于否定或不确定性等上下文,所有这些都使得准确提取比普通散文更困难。
- 临床NLP中的概念规范化是什么?
- 它是将文本提及(例如“heart attack”或“MI”)映射到受控词汇表中单个标准化概念的步骤,以便下游系统可以一致地处理相同思想的不同表面形式。