ScholarGate
Assistent

Informationsextraktion

Umwandlung von unstrukturiertem Text in strukturierte Daten: Erkennung benannter Entitäten, der Beziehungen zwischen ihnen und der Ereignisse, an denen sie beteiligt sind, damit Dokumente abgefragt und aggregiert werden können.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Informationsextraktion ist die automatische Identifizierung strukturierter Fakten – Entitäten, Relationen und Ereignisse – aus unstrukturiertem, natürlichsprachlichem Text.

Scope

Umfasst die Extraktion strukturierter Informationen aus Texten – Erkennung benannter Entitäten, Relationsextraktion, Ereignisextraktion sowie temporale und Template-Befüllung. Es werden sowohl regelbasierte als auch gelernte Ansätze sowie die durch Shared Tasks etablierten Bewertungstraditionen behandelt. Die zugrunde liegenden Sequenz-Labeling-Modelle werden im Bereich Parsing behandelt.

Core questions

  • Wie werden benannte Entitäten in Texten erkannt und klassifiziert?
  • Wie werden Relationen und Ereignisse zwischen Entitäten extrahiert?
  • Wie haben gemeinsame Evaluierungen die Aufgabe und ihre Metriken geprägt?
  • Wie vergleichen sich regelbasierte und gelernte Extraktionsmethoden?

Key concepts

  • Named-Entity Recognition (NER)
  • Relationsextraktion
  • Ereignisextraktion
  • Template-Befüllung
  • Conditional Random Field
  • Distant Supervision
  • Ontologie-Population
  • Evaluierungskampagne

Key theories

Template-basierte Informationsextraktion
Die Formulierung der Extraktion als Befüllung strukturierter Templates mit im Text gefundenen Entitäten und Relationen, entwickelt in den Message Understanding Conferences.
Sequenz-Labeling-Extraktion
Die Darstellung der Entitäts- und Spannenextraktion als Sequenz-Labeling mit Modellen wie Conditional Random Fields und neuronalen Taggern über Token.

History

Die Informationsextraktion wurde maßgeblich durch die Message Understanding Conferences der 1990er Jahre geprägt, die Aufgaben zur Erkennung benannter Entitäten und zur Template-Befüllung sowie deren Bewertung definierten. Das Feld entwickelte sich von handerstellten Mustern zu statistischen Sequenzmodellen wie Conditional Random Fields und anschließend zu neuronaler und distanzüberwachter Extraktion im großen Maßstab.

Debates

Überwachte versus distanzüberwachte Extraktion
Ob man sich auf kostspielige, handgelabelte Daten verlassen oder aus Wissensbasen mittels Distant Supervision booten sollte, was zwar skaliert, aber verrauschte Labels einführt.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Andrew McCallum

Related topics

Seminal works

  • grishman1996
  • lafferty2001

Frequently asked questions

Was ist Named-Entity Recognition?
Named-Entity Recognition (NER) findet und klassifiziert Eigennamen-Spannen in Texten, wie Personen, Organisationen und Orte. Sie ist in der Regel der erste Schritt bei der Extraktion von Relationen und Ereignissen aus Dokumenten.

Methods for this concept

Related concepts