Part-of-Speech Tagging und Sequenzkennzeichnung
Zuweisung eines Labels zu jedem Token in einem Satz – seiner Wortart, seinem benannten Entitätstyp oder seinem Chunk-Tag – unter Verwendung probabilistischer Sequenzmodelle wie Hidden-Markov-Modelle und Conditional Random Fields.
Definition
Sequenzkennzeichnung ist die Aufgabe, jedem Element einer Eingabesequenz ein kategoriales Label zuzuweisen, wobei das Part-of-Speech-Tagging das kanonische Beispiel darstellt.
Scope
Umfasst Sequenzkennzeichnungsaufgaben, die für die flache Analyse zentral sind: Part-of-Speech-Tagging, Named-Entity Recognition und Chunking. Es beinhaltet die Standardmodelle – Hidden-Markov-Modelle, Maximum-Entropy-Markov-Modelle, Conditional Random Fields und neuronale Sequenz-Tagger – sowie Tagsets wie das Penn Treebank und Universal POS. Die vollständige Analyse wird in verwandten Themen behandelt.
Core questions
- Wie weisen Hidden-Markov-Modelle die wahrscheinlichste Tag-Sequenz zu?
- Warum übertreffen Conditional Random Fields lokal normalisierte Modelle?
- Wie werden Tagsets sprachübergreifend entworfen und standardisiert?
- Wie unterstützt die Sequenzkennzeichnung nachgelagerte Parsing- und Extraktionsprozesse?
Key concepts
- Wortart-Tag
- Hidden-Markov-Modell
- Viterbi-Algorithmus
- Conditional Random Field
- Named-Entity Recognition
- Chunking
- Tagset
- BIO-Kodierung
Key theories
- Hidden-Markov-Modell-Tagging
- Modellierung einer Tag-Sequenz als Markov-Kette, die beobachtete Wörter emittiert, wobei der Viterbi-Algorithmus die wahrscheinlichste Tag-Sequenz effizient wiederherstellt.
- Conditional Random Fields
- Global normalisierte diskriminative Modelle für die Sequenzkennzeichnung, die die gesamte Eingabe berücksichtigen und die Label-Bias lokal normalisierter Modelle vermeiden.
History
POS-Tagging war ein früher Erfolg der statistischen NLP, nachdem das Penn Treebank (1993) große annotierte Datenmengen bereitstellte. Hidden-Markov-Modell-Tagger wichen um 2001 diskriminativen Maximum-Entropy- und Conditional-Random-Field-Modellen, die wiederum in den 2010er Jahren von neuronalen Sequenz-Labelern abgelöst wurden.
Debates
- Generative versus diskriminative Sequenzmodelle
- Ob die gemeinsame Verteilung von Wörtern und Tags (HMMs) modelliert oder Labels direkt auf der Eingabe (CRFs) konditioniert werden sollen; diskriminative Modelle sind in der Regel genauer, wenn reichhaltige Merkmale verfügbar sind.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- Warum ist das Part-of-Speech-Tagging nicht trivial?
- Viele Wörter sind mehrdeutig – 'book' kann ein Nomen oder ein Verb sein – daher hängt das korrekte Tag vom Kontext ab. Sequenzmodelle lösen dies, indem sie umgebende Wörter und Tags gemeinsam betrachten.