Informationsextraktion
Umwandlung von unstrukturiertem Text in strukturierte Daten: Erkennung benannter Entitäten, der Beziehungen zwischen ihnen und der Ereignisse, an denen sie beteiligt sind, damit Dokumente abgefragt und aggregiert werden können.
Definition
Informationsextraktion ist die automatische Identifizierung strukturierter Fakten – Entitäten, Relationen und Ereignisse – aus unstrukturiertem, natürlichsprachlichem Text.
Scope
Umfasst die Extraktion strukturierter Informationen aus Texten – Erkennung benannter Entitäten, Relationsextraktion, Ereignisextraktion sowie temporale und Template-Befüllung. Es werden sowohl regelbasierte als auch gelernte Ansätze sowie die durch Shared Tasks etablierten Bewertungstraditionen behandelt. Die zugrunde liegenden Sequenz-Labeling-Modelle werden im Bereich Parsing behandelt.
Core questions
- Wie werden benannte Entitäten in Texten erkannt und klassifiziert?
- Wie werden Relationen und Ereignisse zwischen Entitäten extrahiert?
- Wie haben gemeinsame Evaluierungen die Aufgabe und ihre Metriken geprägt?
- Wie vergleichen sich regelbasierte und gelernte Extraktionsmethoden?
Key concepts
- Named-Entity Recognition (NER)
- Relationsextraktion
- Ereignisextraktion
- Template-Befüllung
- Conditional Random Field
- Distant Supervision
- Ontologie-Population
- Evaluierungskampagne
Key theories
- Template-basierte Informationsextraktion
- Die Formulierung der Extraktion als Befüllung strukturierter Templates mit im Text gefundenen Entitäten und Relationen, entwickelt in den Message Understanding Conferences.
- Sequenz-Labeling-Extraktion
- Die Darstellung der Entitäts- und Spannenextraktion als Sequenz-Labeling mit Modellen wie Conditional Random Fields und neuronalen Taggern über Token.
History
Die Informationsextraktion wurde maßgeblich durch die Message Understanding Conferences der 1990er Jahre geprägt, die Aufgaben zur Erkennung benannter Entitäten und zur Template-Befüllung sowie deren Bewertung definierten. Das Feld entwickelte sich von handerstellten Mustern zu statistischen Sequenzmodellen wie Conditional Random Fields und anschließend zu neuronaler und distanzüberwachter Extraktion im großen Maßstab.
Debates
- Überwachte versus distanzüberwachte Extraktion
- Ob man sich auf kostspielige, handgelabelte Daten verlassen oder aus Wissensbasen mittels Distant Supervision booten sollte, was zwar skaliert, aber verrauschte Labels einführt.
Key figures
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
Related topics
Seminal works
- grishman1996
- lafferty2001
Frequently asked questions
- Was ist Named-Entity Recognition?
- Named-Entity Recognition (NER) findet und klassifiziert Eigennamen-Spannen in Texten, wie Personen, Organisationen und Orte. Sie ist in der Regel der erste Schritt bei der Extraktion von Relationen und Ereignissen aus Dokumenten.