ScholarGate
Assistant

Extraction d'informations

Transformer le texte non structuré en données structurées : détecter les entités nommées, les relations entre elles et les événements auxquels elles participent, afin que les documents puissent être interrogés et agrégés.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

L'extraction d'informations est l'identification automatique de faits structurés — entités, relations et événements — à partir de texte en langage naturel non structuré.

Scope

Ce domaine couvre l'extraction d'informations structurées à partir de texte — reconnaissance d'entités nommées, extraction de relations, extraction d'événements, et remplissage temporel et de gabarits. Il aborde à la fois les approches basées sur des règles et celles par apprentissage, ainsi que les traditions d'évaluation établies par les tâches partagées. Les modèles de labellisation de séquences sous-jacents sont traités dans le domaine de l'analyse syntaxique.

Core questions

  • Comment les entités nommées sont-elles détectées et classifiées dans le texte ?
  • Comment les relations et les événements entre entités sont-ils extraits ?
  • Comment les évaluations partagées ont-elles façonné la tâche et ses métriques ?
  • Comment les méthodes d'extraction basées sur des règles et celles par apprentissage se comparent-elles ?

Key concepts

  • reconnaissance d'entités nommées
  • extraction de relations
  • extraction d'événements
  • remplissage de gabarits
  • champ aléatoire conditionnel
  • supervision distante
  • peuplement d'ontologies
  • campagne d'évaluation

Key theories

Extraction d'informations par remplissage de gabarits
Concevoir l'extraction comme le remplissage de gabarits structurés avec des entités et des relations trouvées dans le texte, une formulation développée lors des Message Understanding Conferences.
Extraction par labellisation de séquences
Considérer l'extraction d'entités et d'étendues comme une labellisation de séquences avec des modèles tels que les champs aléatoires conditionnels et les étiqueteurs neuronaux sur les jetons.

History

L'extraction d'informations a été façonnée par les Message Understanding Conferences des années 1990, qui ont défini les tâches de reconnaissance d'entités nommées et de remplissage de gabarits, ainsi que leur évaluation. Le domaine est passé des motifs construits manuellement aux modèles de séquences statistiques tels que les champs aléatoires conditionnels, puis à l'extraction neuronale et supervisée à distance à grande échelle.

Debates

Extraction supervisée versus extraction supervisée à distance
Faut-il s'appuyer sur des données coûteuses étiquetées manuellement ou amorcer à partir de bases de connaissances via la supervision distante, une approche qui permet une mise à l'échelle mais introduit des étiquettes bruitées.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Andrew McCallum

Related topics

Seminal works

  • grishman1996
  • lafferty2001

Frequently asked questions

Qu'est-ce que la reconnaissance d'entités nommées ?
La reconnaissance d'entités nommées identifie et classifie les étendues de noms propres dans le texte, telles que les personnes, les organisations et les lieux. Elle constitue généralement la première étape de l'extraction de relations et d'événements à partir de documents.

Methods for this concept

Related concepts