Textklassifikation und Sentimentanalyse
Zuweisung von Kategorien zu Texten – Themen, Sprachen, Spam oder Stimmung – mithilfe probabilistischer und neuronaler Klassifikatoren, der am weitesten verbreiteten Familie von NLP-Techniken.
Definition
Textklassifikation ist die überwachte Zuweisung eines oder mehrerer vordefinierter Kategorielabels zu einem Textabschnitt, wobei die Sentimentanalyse eine führende Anwendung darstellt.
Scope
Behandelt die überwachte Klassifikation von Dokumenten und kürzeren Texten: Merkmalsdarstellungen wie Bag-of-Words und Embeddings, klassische Modelle wie naive Bayes und logistische Regression, neuronale Klassifikatoren und die prominente Anwendung der Stimmungs- und Meinungsanalyse. Es befasst sich mit Evaluierung, Klassenungleichgewicht und Merkmalsdesign. Das Repräsentationslernen selbst wird in einem verwandten Thema behandelt.
Core questions
- Wie wird Text als Merkmale für einen Klassifikator dargestellt?
- Wann sind naive Bayes, logistische Regression oder neuronale Modelle angemessen?
- Wie geht die Sentimentanalyse mit Negation, Sarkasmus und Kontext um?
- Wie wird die Klassifikatorleistung bei Klassenungleichgewicht fair gemessen?
Key concepts
- Bag-of-Words
- naiver Bayes
- logistische Regression
- Feature Engineering
- Sentimentanalyse
- Subjektivitätsdetektion
- Klassenungleichgewicht
- Präzision und Recall
Key theories
- Bag-of-Words-Klassifikation
- Darstellung eines Dokuments als die Häufigkeit seiner Wörter und Klassifizierung mit Modellen wie naivem Bayes oder logistischer Regression, eine einfache, aber starke Baseline.
- Subjektivitätsbewusste Sentimentanalyse
- Verbesserung der Sentimentklassifikation durch die vorherige Trennung von subjektivem und objektivem Inhalt, wie im Minimum-Cut-Ansatz von Pang und Lee.
History
Die Textklassifikation gehörte zu den ersten NLP-Aufgaben, die vollständig statistisch wurden, wobei naive Bayes und später Support Vector Machines in den 1990er und 2000er Jahren dominierten. Die Sentimentanalyse, die von Pang und Lee in den frühen 2000er Jahren populär gemacht wurde, entwickelte sich zu einem wichtigen Unterfeld; neuronale Klassifikatoren und vortrainierte Modelle erhöhten später die Genauigkeit auf breiter Front.
Debates
- Einfache Merkmale versus tiefe Repräsentationen
- Starke Bag-of-Words-Baselines konkurrieren oft mit neuronalen Modellen bei kurzen, thematischen Aufgaben, was die Debatte darüber anregt, wann die zusätzliche Komplexität tiefer Repräsentationen gerechtfertigt ist.
Key figures
- Bo Pang
- Lillian Lee
- Christopher Manning
Related topics
Seminal works
- pang2004
- manning1999
Frequently asked questions
- Warum ist die Sentimentanalyse schwieriger als die Themenklassifikation?
- Sentiment hängt von subtilen Hinweisen wie Negation, Vergleich und Sarkasmus ab, und dieselben Wörter können in verschiedenen Kontexten entgegengesetzte Polaritäten ausdrücken, sodass oberflächliche Wortzählungen allein oft unzureichend sind.