ScholarGate
Assistant

Extraction d'informations

L'extraction d'informations est la tâche consistant à identifier automatiquement des informations structurées — entités, relations et événements — au sein de textes non structurés en langage naturel.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

L'extraction d'informations convertit le texte non structuré en représentations structurées en détectant et en classifiant les mentions d'entités, les relations entre elles et les événements auxquels elles participent, souvent dans le but de peupler une base de données ou une base de connaissances.

Scope

Ce sujet couvre l'extraction de faits structurés à partir de texte : la reconnaissance d'entités nommées, l'extraction de relations, l'extraction d'événements, la résolution de coréférences, et le peuplement de gabarits ou de bases de connaissances. Il aborde les approches basées sur des règles, l'étiquetage de séquences statistiques, les méthodes supervisées et supervisées à distance, ainsi que l'évaluation de l'extraction par la précision et le rappel. Les méthodes générales d'apprentissage automatique utilisées pour entraîner les extracteurs relèvent du sous-domaine de l'apprentissage automatique ; l'accent est ici mis sur les tâches d'extraction et leurs défis linguistiques.

Core questions

  • Comment les mentions d'entités telles que les personnes, les organisations et les lieux sont-elles détectées et classifiées dans le texte ?
  • Comment les relations entre entités sont-elles identifiées et extraites ?
  • Comment les événements et leurs participants sont-ils reconnus, et comment la coréférence est-elle résolue ?
  • Comment la performance de l'extraction est-elle évaluée, et quels compromis apparaissent entre la précision et le rappel ?

Key concepts

  • reconnaissance d'entités nommées
  • extraction de relations
  • extraction d'événements
  • résolution de coréférences
  • étiquetage de séquences BIO
  • remplissage de gabarits
  • peuplement de bases de connaissances
  • précision et rappel

Key theories

Reconnaissance d'entités nommées comme étiquetage de séquences
L'identification des mentions d'entités est généralement formulée comme l'étiquetage de chaque jeton avec une balise (par exemple, en utilisant un schéma BIO), résolue par des modèles de séquences qui exploitent le contexte pour marquer les étendues et leurs types.
Extraction de relations et d'événements
Au-delà des entités, l'extraction d'informations identifie comment les entités sont liées et quels événements se produisent, en remplissant des gabarits structurés ; cette approche axée sur les tâches a été cristallisée par les Message Understanding Conferences.
Peuplement de bases de connaissances
Les entités et relations extraites peuvent être agrégées pour construire ou étendre une base de connaissances, en liant les mentions à des entités canoniques et en accumulant des faits à partir de grandes collections de textes.

Clinical relevance

L'extraction d'informations transforme le texte en données interrogeables pour des applications telles que l'exploration de la littérature biomédicale, l'analyse financière et d'actualités, la construction de graphes de connaissances et le peuplement de bases de données à partir de documents, rendant ainsi de grands volumes de texte non structuré utilisables par des systèmes en aval.

History

L'extraction d'informations a été façonnée par les Message Understanding Conferences (MUC) de la fin des années 1980 et des années 1990, qui ont défini des tâches telles que la reconnaissance d'entités nommées et le remplissage de gabarits, et ont introduit une évaluation standardisée. Le domaine est passé des règles construites manuellement aux modèles de séquences statistiques, puis aux méthodes neuronales, tout en conservant sa structure de tâches.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

Qu'est-ce que la reconnaissance d'entités nommées ?
La reconnaissance d'entités nommées est la tâche consistant à trouver et à classifier des segments de texte qui désignent des entités du monde réel, telles que des personnes, des organisations, des lieux et des dates. C'est généralement une première étape de l'extraction d'informations, car de nombreuses relations et événements sont exprimés en termes de ces entités.
Comment l'extraction d'informations est-elle évaluée ?
L'extraction est généralement évaluée à l'aide de la précision (quelle fraction des éléments extraits sont corrects) et du rappel (quelle fraction des éléments corrects ont été extraits), souvent combinés en une mesure F. Cela reflète le compromis entre extraire trop peu et extraire des informations incorrectes.

Methods for this concept

Related concepts