Was ist Named-Entity Recognition?

Named-Entity Recognition (NER) findet und klassifiziert Eigennamen-Spannen in Texten, wie Personen, Organisationen und Orte. Sie ist in der Regel der erste Schritt bei der Extraktion von Relationen und Ereignissen aus Dokumenten.

Informationsextraktion

Umwandlung von unstrukturiertem Text in strukturierte Daten: Erkennung benannter Entitäten, der Beziehungen zwischen ihnen und der Ereignisse, an denen sie beteiligt sind, damit Dokumente abgefragt und aggregiert werden können.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Informationsextraktion ist die automatische Identifizierung strukturierter Fakten – Entitäten, Relationen und Ereignisse – aus unstrukturiertem, natürlichsprachlichem Text.

Scope

Umfasst die Extraktion strukturierter Informationen aus Texten – Erkennung benannter Entitäten, Relationsextraktion, Ereignisextraktion sowie temporale und Template-Befüllung. Es werden sowohl regelbasierte als auch gelernte Ansätze sowie die durch Shared Tasks etablierten Bewertungstraditionen behandelt. Die zugrunde liegenden Sequenz-Labeling-Modelle werden im Bereich Parsing behandelt.

Core questions

Wie werden benannte Entitäten in Texten erkannt und klassifiziert?
Wie werden Relationen und Ereignisse zwischen Entitäten extrahiert?
Wie haben gemeinsame Evaluierungen die Aufgabe und ihre Metriken geprägt?
Wie vergleichen sich regelbasierte und gelernte Extraktionsmethoden?

Key concepts

Named-Entity Recognition (NER)
Relationsextraktion
Ereignisextraktion
Template-Befüllung
Conditional Random Field
Distant Supervision
Ontologie-Population
Evaluierungskampagne

Key theories

Template-basierte Informationsextraktion: Die Formulierung der Extraktion als Befüllung strukturierter Templates mit im Text gefundenen Entitäten und Relationen, entwickelt in den Message Understanding Conferences.
Sequenz-Labeling-Extraktion: Die Darstellung der Entitäts- und Spannenextraktion als Sequenz-Labeling mit Modellen wie Conditional Random Fields und neuronalen Taggern über Token.

History

Die Informationsextraktion wurde maßgeblich durch die Message Understanding Conferences der 1990er Jahre geprägt, die Aufgaben zur Erkennung benannter Entitäten und zur Template-Befüllung sowie deren Bewertung definierten. Das Feld entwickelte sich von handerstellten Mustern zu statistischen Sequenzmodellen wie Conditional Random Fields und anschließend zu neuronaler und distanzüberwachter Extraktion im großen Maßstab.

Debates

Überwachte versus distanzüberwachte Extraktion: Ob man sich auf kostspielige, handgelabelte Daten verlassen oder aus Wissensbasen mittels Distant Supervision booten sollte, was zwar skaliert, aber verrauschte Labels einführt.

Key figures

Ralph Grishman
Beth Sundheim
Andrew McCallum

Seminal works

grishman1996
lafferty2001

Frequently asked questions

Was ist Named-Entity Recognition?: Named-Entity Recognition (NER) findet und klassifiziert Eigennamen-Spannen in Texten, wie Personen, Organisationen und Orte. Sie ist in der Regel der erste Schritt bei der Extraktion von Relationen und Ereignissen aus Dokumenten.