임상 텍스트 처리가 일반 텍스트보다 어려운 이유는 무엇입니까?

임상 기록은 약어, 오타, 템플릿화된 단편, 도메인별 용어로 밀집되어 있으며, 의미는 종종 부정 또는 불확실성과 같은 맥락에 따라 달라집니다. 이 모든 요소는 일반 산문보다 정확한 추출을 더 어렵게 만듭니다.

임상 NLP에서 개념 정규화란 무엇입니까?

'심장마비' 또는 'MI'와 같은 텍스트 언급을 통제된 어휘의 단일 표준화된 개념에 매핑하는 단계입니다. 이를 통해 동일한 아이디어의 다른 표면 형태를 하위 시스템에서 일관되게 처리할 수 있습니다.

임상 문서에서의 자연어 처리

임상 정보의 상당 부분은 구조화된 코드보다는 자유 텍스트, 서술형 기록, 퇴원 요약, 영상의학과 및 병리과 보고서 형태로 기록됩니다. 임상 문서에서의 자연어 처리(NLP)는 이러한 텍스트에서 구조화되고 기계가 사용할 수 있는 정보를 추출하는 계산 방법들의 집합으로, 코딩 및 코호트 식별부터 의사결정 지원 및 예측 시스템에 정보를 제공하는 작업까지 지원합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

임상 자연어 처리(Clinical natural language processing)는 임상 자유 텍스트에 계산 언어학적 방법을 적용하여 포함된 정보를 식별하고, 정규화하며, 구조화하는 것입니다. 예를 들어, 조건, 소견, 약물에 대한 언급을 코딩된 개념에 매핑하면서 부정 및 불확실성과 같은 맥락을 고려합니다.

Scope

이 항목은 토큰화, 개체명 인식, 통제된 용어집으로의 개념 정규화, 부정 및 단정 탐지, 관계 추출과 같은 임상 서술에 적용되는 핵심 NLP 작업; 확립된 임상 NLP 파이프라인; 임상 언어의 특정 어려움; 그리고 규칙 기반에서 통계적 및 신경망 접근 방식으로의 전환을 다룹니다. 이는 텍스트가 어떻게 처리되는지를 설명하는 방법론적 주제이며, 임상적 권고의 출처가 아닙니다.

Key concepts

개체명 인식 및 개념 정규화
부정 및 단정 탐지
정보 추출 및 관계 추출
UMLS / 통제된 용어집으로의 개념 매핑
임상 NLP 파이프라인 (예: cTAKES)
규칙 기반 vs 통계적 vs 신경망 방법
임상 텍스트의 비식별화
모호성, 약어 및 도메인 전환

Mechanisms

임상 NLP는 일반적으로 텍스트 분할 및 토큰화, 임상적으로 관련된 언급 인식, 통제된 어휘의 개념으로 정규화, 그리고 부정, 불확실성 또는 소견이 환자 또는 가족 구성원을 지칭하는지 여부와 같은 맥락 감지 단계를 연결합니다. cTAKES와 같은 개방형 파이프라인은 이러한 구성 요소를 임상 서술을 위해 패키징하고 추출된 용어를 표준화된 개념에 매핑했습니다 (Savova, 2010). 개념 정규화는 UMLS와 같은 자원 통합에 의존하는데, 이는 다양한 원천 어휘를 연결하여 다양한 표면 형태가 공통 식별자로 해결되도록 합니다 (Bodenreider, 2004). 이 분야는 수작업으로 구축된 규칙에서 통계적 및 신경망 모델로 전환되었지만, 기본 작업은 일관되게 유지됩니다 (Nadkarni, 2011).

Clinical relevance

많은 임상적으로 의미 있는 세부 정보가 서술형 기록에 존재하기 때문에, NLP는 해당 세부 정보 중 얼마나 많은 부분이 코딩, 품질 측정, 코호트 선택 및 하위 의사결정 지원에 활용될 수 있는지를 결정합니다. 이 항목은 임상 텍스트가 어떻게 처리되고 구조화되는지를 설명합니다. 추출된 정보는 검증과 인간의 감독이 필요하며, 이 텍스트는 개별 진단 또는 치료 결정의 근거가 아닙니다.

Evidence & guidelines

임상 NLP는 주로 임상 결과 시험보다는 작업별 성능 지표 및 공유 평가 과제를 통해 평가됩니다. 입문 및 시스템 논문은 표준 파이프라인과 그 구성 요소를 문서화하며 (Nadkarni, 2011; Savova, 2010), 개념 정규화는 UMLS와 같은 용어집 통합에 의존합니다 (Bodenreider, 2004). 성능은 기관 및 기록 유형에 따라 달라지는 것으로 알려져 있으므로, 현지 검증이 강조됩니다.

History

임상 NLP는 초기 의료 언어 처리 시스템과 규칙 기반 패턴 매칭에서 발전했으며, 2000년대에 재사용 가능한 오픈 소스 파이프라인과 작업 및 벤치마크를 표준화하는 공유 평가 과제를 통해 성숙했습니다. 2010년대에는 규칙 기반 및 고전적인 기계 학습 방법에서 신경망 및 이후 트랜스포머 기반 언어 모델로 전환되었지만, 동일한 핵심 추출 및 정규화 작업은 유지되었습니다.

Debates

임상 NLP 시스템은 여러 기관에서 얼마나 이식성이 있는가?: 한 기관의 기록에 맞춰 조정된 모델과 규칙은 템플릿, 약어, 문서화 스타일의 차이로 인해 다른 기관에서는 성능이 저하되는 경우가 많습니다. 이는 일반화 가능성, 현지 적응의 필요성, 공유 주석 코퍼스에 대한 논쟁을 불러일으킵니다.

Key figures

Wendy W. Chapman
Guergana K. Savova
Prakash M. Nadkarni
Lucila Ohno-Machado

Seminal works

nadkarni-2011
savova-2010
bodenreider-2004

Frequently asked questions

임상 텍스트 처리가 일반 텍스트보다 어려운 이유는 무엇입니까?: 임상 기록은 약어, 오타, 템플릿화된 단편, 도메인별 용어로 밀집되어 있으며, 의미는 종종 부정 또는 불확실성과 같은 맥락에 따라 달라집니다. 이 모든 요소는 일반 산문보다 정확한 추출을 더 어렵게 만듭니다.
임상 NLP에서 개념 정규화란 무엇입니까?: '심장마비' 또는 'MI'와 같은 텍스트 언급을 통제된 어휘의 단일 표준화된 개념에 매핑하는 단계입니다. 이를 통해 동일한 아이디어의 다른 표면 형태를 하위 시스템에서 일관되게 처리할 수 있습니다.