Textklassifikation
Die Textklassifikation ordnet Dokumente automatisch einer oder mehreren vordefinierten Kategorien zu, wobei Modelle verwendet werden, die aus gelabelten Beispielen gelernt wurden.
Definition
Textklassifikation ist die Aufgabe, ein Dokument einer oder mehreren Kategorien aus einem vordefinierten Satz zuzuordnen, durchgeführt von einem Modell, das auf Dokumenten trainiert wurde, deren Kategoriebezeichnungen bekannt sind, wobei die termbasierte Darstellung des Dokuments als Eingabemerkmale verwendet wird.
Scope
Dieses Thema behandelt die überwachte Kategorisierung von Texten: die Problemformulierung als Single-Label-, Multi-Label- oder hierarchische Klassifikation; repräsentative Lernalgorithmen, die auf Text angewendet werden, wie naive Bayes, die Rocchio-Zentroid-Methode, k-nächste Nachbarn und Support Vector Machines; Merkmalsauswahl für hochdimensionale Texte; und die Evaluierung von Klassifikatoren. Es behandelt die Klassifikation, wie sie in Retrieval-Kontexten wie Filterung und Routing verwendet wird, wobei maschinelles Lernen herangezogen wird, der Fokus jedoch auf textspezifischen Überlegungen liegt und nicht auf der allgemeinen Klassifikatortheorie.
Core questions
- Wie wird Textkategorisierung als Single-Label-, Multi-Label- oder hierarchische Klassifikation formuliert?
- Welche Lernalgorithmen eignen sich gut für hochdimensionale, dünnbesetzte Textmerkmale?
- Wie werden informative Merkmale aus einem großen Vokabular ausgewählt?
- Warum sind Support Vector Machines besonders gut für Text geeignet?
- Wie werden Textklassifikatoren evaluiert und wie wird mit Klassenungleichgewicht umgegangen?
Key concepts
- überwachte Kategorisierung
- Single-Label- vs. Multi-Label-Klassifikation
- naiver Bayes
- Rocchio / Zentroid-Klassifikation
- k-nächste Nachbarn
- Support Vector Machines
- Merkmalsauswahl
- Klassifikatorevaluierung (Precision, Recall, F1)
Key theories
- Naive Bayes Textklassifikation
- Die Modellierung der Terme jedes Dokuments als bedingt unabhängig gegeben die Klasse führt zu einem einfachen, schnellen probabilistischen Klassifikator, der trotz seiner starken Unabhängigkeitsannahme bei vielen Textaufgaben konkurrenzfähig abschneidet.
- Support Vector Machines für Text
- Da Text viele dünnbesetzte, meist relevante Merkmale aufweist und Klassen in diesem Raum oft linear trennbar sind, erzielen Large-Margin Support Vector Machines eine hohe Genauigkeit bei der Textkategorisierung mit geringem Feature Engineering.
Clinical relevance
Die Textklassifikation ermöglicht E-Mail-Spamfilterung, Inhaltsmoderation, Themen-Routing und -Tagging, Sentiment-Analyse sowie die Kategorisierung, die facettierte Suche und Filterung unterstützt. Im Bereich des Retrieval bildet sie die Grundlage für Dokumentenfilter- und -routing-Systeme, die Dokumente liefern, die dauerhaften Informationsbedürfnissen entsprechen.
History
Die automatische Textkategorisierung begann mit handerstellten Regelsystemen und verlagerte sich in den 1990er Jahren zum maschinellen Lernen. Joachims' Demonstration von 1998, dass Support Vector Machines bei Texten hervorragende Leistungen erbringen, und Sebastianis Übersicht von 2002 etablierten das moderne überwachte Paradigma. Dieselbe Aufgabe dient heute als Standard-Benchmark für Repräsentationslernen und neuronale Textmodelle.
Key figures
- Fabrizio Sebastiani
- Thorsten Joachims
- Yiming Yang
Related topics
Seminal works
- sebastiani2002
- joachims1998
- manning2008
Frequently asked questions
- Warum funktioniert naiver Bayes trotz seiner unrealistischen Unabhängigkeitsannahme gut?
- Obwohl Terme nicht wirklich unabhängig sind, fällt die naive Bayes-Entscheidung oft auf die richtige Klasse, da die Annahme hauptsächlich Wahrscheinlichkeitsschätzungen verzerrt und nicht die relative Reihenfolge der Klassen. Es ist auch schnell und robust bei begrenzten Daten, was es zu einer starken Basislinie macht.
- Was ist der Unterschied zwischen Single-Label- und Multi-Label-Klassifikation?
- Die Single-Label-Klassifikation ordnet jedes Dokument genau einer Kategorie zu, während die Multi-Label-Klassifikation es einem Dokument ermöglicht, mehreren Kategorien gleichzeitig anzugehören, wie wenn ein Artikel mit mehreren Themen getaggt wird. Multi-Label-Aufgaben erfordern Methoden und Metriken, die überlappende Labels verarbeiten können.