Wie wird die Informationsextraktion bewertet?

Die Extraktion wird typischerweise mit Präzision (welcher Anteil der extrahierten Elemente korrekt ist) und Recall (welcher Anteil der korrekten Elemente extrahiert wurde) bewertet, oft kombiniert zu einem F-Maß. Dies spiegelt den Kompromiss zwischen dem Extrahieren zu weniger und dem Extrahieren falscher Informationen wider.

Informationsextraktion

Informationsextraktion ist die Aufgabe, strukturierte Informationen – Entitäten, Relationen und Ereignisse – innerhalb unstrukturierter natürlichsprachiger Texte automatisch zu identifizieren.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Informationsextraktion wandelt unstrukturierte Texte in strukturierte Repräsentationen um, indem sie Erwähnungen von Entitäten, die Beziehungen zwischen ihnen und die Ereignisse, an denen sie teilnehmen, erkennt und klassifiziert, oft um eine Datenbank oder Wissensdatenbank zu befüllen.

Scope

Dieses Thema behandelt die Extraktion strukturierter Fakten aus Texten: die Erkennung benannter Entitäten (Named Entity Recognition), die Relationsextraktion, die Ereignisextraktion, die Koreferenzauflösung und die Befüllung von Vorlagen oder Wissensdatenbanken. Es werden regelbasierte, statistische Sequenz-Labeling-Verfahren sowie überwachte und distanzüberwachte Ansätze und die Bewertung der Extraktion mittels Präzision und Recall behandelt. Die allgemeinen maschinellen Lernmethoden, die zum Training von Extraktoren verwendet werden, gehören zum Teilgebiet des maschinellen Lernens; hier liegt der Schwerpunkt auf den Extraktionsaufgaben und ihren sprachlichen Herausforderungen.

Core questions

Wie werden Erwähnungen von Entitäten wie Personen, Organisationen und Orten in Texten erkannt und klassifiziert?
Wie werden Beziehungen zwischen Entitäten identifiziert und extrahiert?
Wie werden Ereignisse und ihre Teilnehmer erkannt und wie wird Koreferenz aufgelöst?
Wie wird die Extraktionsleistung bewertet und welche Kompromisse ergeben sich zwischen Präzision und Recall?

Key concepts

Erkennung benannter Entitäten (Named Entity Recognition)
Relationsextraktion
Ereignisextraktion
Koreferenzauflösung
BIO-Sequenz-Labeling
Vorlagenbefüllung
Wissensdatenbank-Befüllung
Präzision und Recall

Key theories

Erkennung benannter Entitäten als Sequenz-Labeling: Die Identifizierung von Entitätserwähnungen wird üblicherweise als das Labeln jedes Tokens mit einem Tag (z. B. unter Verwendung eines BIO-Schemas) formuliert, gelöst durch Sequenzmodelle, die den Kontext nutzen, um Spannen und ihre Typen zu markieren.
Relations- und Ereignisextraktion: Über Entitäten hinaus identifiziert die Informationsextraktion, wie Entitäten in Beziehung stehen und welche Ereignisse auftreten, und füllt strukturierte Vorlagen aus; diese aufgabenorientierte Rahmung wurde durch die Message Understanding Conferences kristallisiert.
Befüllung von Wissensdatenbanken: Extrahierte Entitäten und Relationen können aggregiert werden, um eine Wissensdatenbank aufzubauen oder zu erweitern, indem Erwähnungen mit kanonischen Entitäten verknüpft und Fakten aus großen Textsammlungen gesammelt werden.

Clinical relevance

Informationsextraktion wandelt Text in abfragbare Daten für Anwendungen wie biomedizinisches Literatur-Mining, Finanz- und Nachrichtenanalysen, den Aufbau von Wissensgraphen und die Befüllung von Datenbanken aus Dokumenten um, wodurch große Mengen unstrukturierter Texte für nachgeschaltete Systeme nutzbar werden.

History

Die Informationsextraktion wurde maßgeblich durch die Message Understanding Conferences (MUC) der späten 1980er und 1990er Jahre geprägt, die Aufgaben wie die Erkennung benannter Entitäten und die Vorlagenbefüllung definierten und eine standardisierte Evaluierung einführten. Das Feld entwickelte sich von handerstellten Regeln über statistische Sequenzmodelle zu späteren neuronalen Methoden, wobei seine Aufgabenstruktur beibehalten wurde.

Key figures

Ralph Grishman
Beth Sundheim
Christopher D. Manning
Daniel Jurafsky

Seminal works

grishman1996
jurafsky2023

Frequently asked questions

Was ist die Erkennung benannter Entitäten (Named Entity Recognition)?: Die Erkennung benannter Entitäten ist die Aufgabe, Textspannen zu finden und zu klassifizieren, die reale Entitäten wie Personen, Organisationen, Orte und Daten benennen. Sie ist in der Regel ein erster Schritt bei der Informationsextraktion, da viele Relationen und Ereignisse in Bezug auf diese Entitäten angegeben werden.
Wie wird die Informationsextraktion bewertet?: Die Extraktion wird typischerweise mit Präzision (welcher Anteil der extrahierten Elemente korrekt ist) und Recall (welcher Anteil der korrekten Elemente extrahiert wurde) bewertet, oft kombiniert zu einem F-Maß. Dies spiegelt den Kompromiss zwischen dem Extrahieren zu weniger und dem Extrahieren falscher Informationen wider.