Verarbeitung natürlicher Sprache in der klinischen Dokumentation
Ein großer Teil der klinischen Informationen wird als Freitext, narrative Notizen, Entlassungsberichte, Radiologie- und Pathologieberichte und nicht als strukturierte Codes erfasst. Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) in der klinischen Dokumentation ist die Menge von Berechnungsmethoden, die strukturierte, maschinell nutzbare Informationen aus diesem Text extrahieren und Aufgaben von der Kodierung und Kohortenidentifikation bis zur Speisung von Entscheidungsunterstützungs- und Vorhersagesystemen unterstützen.
Definition
Klinisches Natural Language Processing ist die Anwendung computerlinguistischer Methoden auf klinischen Freitext, um die darin enthaltenen Informationen zu identifizieren, zu normalisieren und zu strukturieren, zum Beispiel die Zuordnung von Erwähnungen von Zuständen, Befunden und Medikamenten zu kodierten Konzepten unter Berücksichtigung des Kontextes wie Negation und Unsicherheit.
Scope
Der Eintrag behandelt Kernaufgaben des NLP, die auf klinische Narrative angewendet werden, wie Tokenisierung, Erkennung benannter Entitäten, Konzeptnormalisierung zu kontrollierten Terminologien, Negations- und Assertionserkennung sowie Relations-Extraktion; etablierte klinische NLP-Pipelines; die besonderen Schwierigkeiten der klinischen Sprache; und den Übergang von regelbasierten zu statistischen und neuronalen Ansätzen. Es handelt sich um ein methodisches Thema, das beschreibt, wie Text verarbeitet wird, und nicht um eine Quelle für klinische Empfehlungen.
Key concepts
- Erkennung benannter Entitäten und Konzeptnormalisierung
- Negations- und Assertionserkennung
- Informations- und Relations-Extraktion
- Konzeptzuordnung zu UMLS / kontrollierten Terminologien
- Klinische NLP-Pipelines (z. B. cTAKES)
- Regelbasierte vs. statistische vs. neuronale Methoden
- De-Identifikation von klinischem Text
- Ambiguität, Abkürzung und Domänenverschiebung
Mechanisms
Klinisches NLP kettet typischerweise Stufen aneinander: Segmentierung und Tokenisierung von Text, Erkennung klinisch relevanter Erwähnungen, deren Normalisierung zu Konzepten in einem kontrollierten Vokabular und Erkennung des Kontextes wie Negation, Unsicherheit oder ob ein Befund sich auf den Patienten oder ein Familienmitglied bezieht. Offene Pipelines wie cTAKES bündelten diese Komponenten für klinische Narrative und ordneten extrahierte Begriffe standardisierten Konzepten zu (Savova, 2010). Die Konzeptnormalisierung stützt sich auf die Integration von Ressourcen wie dem UMLS, das viele Quellvokabulare verknüpft, sodass verschiedene Oberflächenformen zu gemeinsamen Identifikatoren aufgelöst werden (Bodenreider, 2004). Das Feld hat sich von handerstellten Regeln hin zu statistischen und neuronalen Modellen entwickelt, während die zugrunde liegenden Aufgaben konsistent bleiben (Nadkarni, 2011).
Clinical relevance
Da so viele klinisch bedeutsame Details in narrativen Notizen enthalten sind, bestimmt NLP, wie viele dieser Details für die Kodierung, Qualitätsmessung, Kohortenauswahl und nachgeschaltete Entscheidungsunterstützung verfügbar werden. Dieser Eintrag beschreibt, wie klinischer Text verarbeitet und strukturiert wird; extrahierte Informationen erfordern Validierung und menschliche Aufsicht, und der Text ist keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.
Evidence & guidelines
Klinisches NLP wird hauptsächlich durch aufgabenspezifische Leistungsmetriken und gemeinsame Evaluierungsherausforderungen und nicht durch klinische Ergebnisstudien bewertet. Einführungs- und Systempapiere dokumentieren die Standard-Pipeline und ihre Komponenten (Nadkarni, 2011; Savova, 2010), und die Konzeptnormalisierung hängt von der Integration von Terminologien wie dem UMLS ab (Bodenreider, 2004). Die Leistung variiert bekanntermaßen zwischen Institutionen und Notiztypen, daher wird eine lokale Validierung betont.
History
Klinisches NLP entwickelte sich aus frühen Systemen zur medizinischen Sprachverarbeitung und regelbasierten Mustererkennung und reifte in den 2000er Jahren mit wiederverwendbaren Open-Source-Pipelines und gemeinsamen Evaluierungsherausforderungen, die Aufgaben und Benchmarks standardisierten. In den 2010er Jahren verlagerte sich das Feld von regelbasierten und klassischen maschinellen Lernmethoden hin zu neuronalen und später transformatorbasierten Sprachmodellen, wobei die gleichen Kernaufgaben der Extraktion und Normalisierung beibehalten wurden.
Debates
- Wie übertragbar sind klinische NLP-Systeme zwischen verschiedenen Standorten?
- Modelle und Regeln, die an den Notizen einer Institution abgestimmt wurden, verschlechtern sich oft bei anderen Institutionen aufgrund von Unterschieden in Vorlagen, Abkürzungen und Dokumentationsstil, was zu Debatten über Generalisierbarkeit, die Notwendigkeit lokaler Anpassung und gemeinsame annotierte Korpora führt.
Key figures
- Wendy W. Chapman
- Guergana K. Savova
- Prakash M. Nadkarni
- Lucila Ohno-Machado
Related topics
Seminal works
- nadkarni-2011
- savova-2010
- bodenreider-2004
Frequently asked questions
- Warum ist die Verarbeitung klinischer Texte schwieriger als die von allgemeinem Text?
- Klinische Notizen sind dicht mit Abkürzungen, Rechtschreibfehlern, Vorlagenfragmenten und domänenspezifischen Begriffen, und die Bedeutung hängt oft vom Kontext wie Negation oder Unsicherheit ab, was die genaue Extraktion schwieriger macht als bei gewöhnlicher Prosa.
- Was ist Konzeptnormalisierung im klinischen NLP?
- Es ist der Schritt, eine textuelle Erwähnung, wie 'Herzinfarkt' oder 'MI', einem einzigen standardisierten Konzept in einem kontrollierten Vokabular zuzuordnen, damit verschiedene Oberflächenformen derselben Idee von nachgeschalteten Systemen konsistent behandelt werden können.