ScholarGate
Assistant

Traitement automatique du langage naturel en documentation clinique

Une grande partie des informations cliniques est enregistrée sous forme de texte libre, de notes narratives, de résumés de sortie, de rapports de radiologie et d'anatomopathologie, plutôt que sous forme de codes structurés. Le traitement automatique du langage naturel (TALN) en documentation clinique est l'ensemble des méthodes computationnelles qui extraient des informations structurées et exploitables par machine à partir de ce texte, prenant en charge des tâches allant du codage et de l'identification de cohortes à l'alimentation de systèmes d'aide à la décision et de prédiction.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Le traitement automatique du langage naturel clinique est l'application de méthodes de linguistique computationnelle au texte libre clinique afin d'identifier, de normaliser et de structurer les informations qu'il contient, par exemple en associant les mentions de conditions, de résultats et de médicaments à des concepts codés tout en tenant compte du contexte tel que la négation et l'incertitude.

Scope

Cette entrée couvre les tâches fondamentales du TALN appliquées aux récits cliniques, telles que la tokenisation, la reconnaissance d'entités nommées, la normalisation de concepts vers des terminologies contrôlées, la détection de la négation et de l'affirmation, et l'extraction de relations ; les chaînes de traitement (pipelines) de TALN clinique établies ; les difficultés particulières du langage clinique ; et le passage des approches basées sur des règles aux approches statistiques et neuronales. Il s'agit d'un sujet méthodologique décrivant comment le texte est traité, et non d'une source de recommandations cliniques.

Key concepts

  • Reconnaissance d'entités nommées et normalisation de concepts
  • Détection de la négation et de l'affirmation
  • Extraction d'informations et extraction de relations
  • Mappage de concepts vers l'UMLS / terminologies contrôlées
  • Pipelines de TALN clinique (par ex., cTAKES)
  • Méthodes basées sur des règles vs statistiques vs neuronales
  • Désidentification du texte clinique
  • Ambigüité, abréviation et décalage de domaine

Mechanisms

Le TALN clinique enchaîne généralement plusieurs étapes : la segmentation et la tokenisation du texte, la reconnaissance des mentions cliniquement pertinentes, leur normalisation en concepts d'un vocabulaire contrôlé, et la détection du contexte tel que la négation, l'incertitude, ou si un résultat se réfère au patient ou à un membre de sa famille. Des chaînes de traitement ouvertes telles que cTAKES ont regroupé ces composants pour les récits cliniques et ont associé les termes extraits à des concepts standardisés (Savova, 2010). La normalisation de concepts repose sur l'intégration de ressources comme l'UMLS, qui relie de nombreux vocabulaires sources afin que des formes de surface variées se résolvent en identifiants communs (Bodenreider, 2004). Le domaine est passé des règles construites manuellement aux modèles statistiques et neuronaux, tandis que les tâches sous-jacentes restent cohérentes (Nadkarni, 2011).

Clinical relevance

Étant donné qu'une grande partie des détails cliniquement significatifs se trouve dans les notes narratives, le TALN détermine la quantité de ces détails qui devient disponible pour le codage, la mesure de la qualité, la sélection de cohortes et l'aide à la décision en aval. Cette entrée décrit comment le texte clinique est traité et structuré ; les informations extraites nécessitent une validation et une supervision humaine, et le texte ne constitue pas une base pour toute décision diagnostique ou thérapeutique individuelle.

Evidence & guidelines

Le TALN clinique est évalué principalement par des métriques de performance spécifiques aux tâches et des défis d'évaluation partagés plutôt que par des essais sur les résultats cliniques. Les articles introductifs et de systèmes documentent la chaîne de traitement standard et ses composants (Nadkarni, 2011 ; Savova, 2010), et la normalisation de concepts dépend de l'intégration de terminologies telles que l'UMLS (Bodenreider, 2004). Il est reconnu que les performances varient selon les institutions et les types de notes, c'est pourquoi la validation locale est soulignée.

History

Le TALN clinique a évolué à partir des premiers systèmes de traitement du langage médical et de la reconnaissance de formes basée sur des règles, mûrissant dans les années 2000 avec des chaînes de traitement (pipelines) open source réutilisables et des défis d'évaluation partagés qui ont standardisé les tâches et les critères de référence. Au cours des années 2010, le domaine est passé des méthodes basées sur des règles et de l'apprentissage automatique classique vers les modèles de langage neuronaux et, plus tard, basés sur des transformeurs, tout en conservant les mêmes tâches fondamentales d'extraction et de normalisation.

Debates

Quelle est la portabilité des systèmes de TALN clinique entre les sites ?
Les modèles et les règles ajustés sur les notes d'une institution se dégradent souvent sur celles d'une autre en raison des différences de modèles, d'abréviations et de style de documentation, soulevant un débat sur la généralisabilité, la nécessité d'une adaptation locale et les corpus annotés partagés.

Key figures

  • Wendy W. Chapman
  • Guergana K. Savova
  • Prakash M. Nadkarni
  • Lucila Ohno-Machado

Related topics

Seminal works

  • nadkarni-2011
  • savova-2010
  • bodenreider-2004

Frequently asked questions

Pourquoi le traitement du texte clinique est-il plus difficile que celui du texte général ?
Les notes cliniques sont denses en abréviations, fautes d'orthographe, fragments de modèles et termes spécifiques au domaine, et le sens dépend souvent du contexte tel que la négation ou l'incertitude, ce qui rend l'extraction précise plus difficile que pour la prose ordinaire.
Qu'est-ce que la normalisation de concepts en TALN clinique ?
C'est l'étape qui consiste à mapper une mention textuelle, telle que 'crise cardiaque' ou 'IDM' (infarctus du myocarde), à un concept standardisé unique dans un vocabulaire contrôlé, afin que différentes formes de surface de la même idée puissent être traitées de manière cohérente par les systèmes en aval.

Methods for this concept

Related concepts