Warum ist das Part-of-Speech-Tagging nicht trivial?

Viele Wörter sind mehrdeutig – 'book' kann ein Nomen oder ein Verb sein – daher hängt das korrekte Tag vom Kontext ab. Sequenzmodelle lösen dies, indem sie umgebende Wörter und Tags gemeinsam betrachten.

Part-of-Speech Tagging und Sequenzkennzeichnung

Zuweisung eines Labels zu jedem Token in einem Satz – seiner Wortart, seinem benannten Entitätstyp oder seinem Chunk-Tag – unter Verwendung probabilistischer Sequenzmodelle wie Hidden-Markov-Modelle und Conditional Random Fields.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Sequenzkennzeichnung ist die Aufgabe, jedem Element einer Eingabesequenz ein kategoriales Label zuzuweisen, wobei das Part-of-Speech-Tagging das kanonische Beispiel darstellt.

Scope

Umfasst Sequenzkennzeichnungsaufgaben, die für die flache Analyse zentral sind: Part-of-Speech-Tagging, Named-Entity Recognition und Chunking. Es beinhaltet die Standardmodelle – Hidden-Markov-Modelle, Maximum-Entropy-Markov-Modelle, Conditional Random Fields und neuronale Sequenz-Tagger – sowie Tagsets wie das Penn Treebank und Universal POS. Die vollständige Analyse wird in verwandten Themen behandelt.

Core questions

Wie weisen Hidden-Markov-Modelle die wahrscheinlichste Tag-Sequenz zu?
Warum übertreffen Conditional Random Fields lokal normalisierte Modelle?
Wie werden Tagsets sprachübergreifend entworfen und standardisiert?
Wie unterstützt die Sequenzkennzeichnung nachgelagerte Parsing- und Extraktionsprozesse?

Key concepts

Wortart-Tag
Hidden-Markov-Modell
Viterbi-Algorithmus
Conditional Random Field
Named-Entity Recognition
Chunking
Tagset
BIO-Kodierung

Key theories

Hidden-Markov-Modell-Tagging: Modellierung einer Tag-Sequenz als Markov-Kette, die beobachtete Wörter emittiert, wobei der Viterbi-Algorithmus die wahrscheinlichste Tag-Sequenz effizient wiederherstellt.
Conditional Random Fields: Global normalisierte diskriminative Modelle für die Sequenzkennzeichnung, die die gesamte Eingabe berücksichtigen und die Label-Bias lokal normalisierter Modelle vermeiden.

History

POS-Tagging war ein früher Erfolg der statistischen NLP, nachdem das Penn Treebank (1993) große annotierte Datenmengen bereitstellte. Hidden-Markov-Modell-Tagger wichen um 2001 diskriminativen Maximum-Entropy- und Conditional-Random-Field-Modellen, die wiederum in den 2010er Jahren von neuronalen Sequenz-Labelern abgelöst wurden.

Debates

Generative versus diskriminative Sequenzmodelle: Ob die gemeinsame Verteilung von Wörtern und Tags (HMMs) modelliert oder Labels direkt auf der Eingabe (CRFs) konditioniert werden sollen; diskriminative Modelle sind in der Regel genauer, wenn reichhaltige Merkmale verfügbar sind.

Key figures

Mitchell Marcus
John Lafferty
Andrew McCallum
Fernando Pereira

Seminal works

marcus1993
lafferty2001

Frequently asked questions

Warum ist das Part-of-Speech-Tagging nicht trivial?: Viele Wörter sind mehrdeutig – 'book' kann ein Nomen oder ein Verb sein – daher hängt das korrekte Tag vom Kontext ab. Sequenzmodelle lösen dies, indem sie umgebende Wörter und Tags gemeinsam betrachten.