Was ist das Bag-of-Words-Modell?

Das Bag-of-Words-Modell stellt ein Dokument als die Menge oder Multimenge der darin enthaltenen Terme dar, wobei Wortreihenfolge und Grammatik ignoriert werden. Obwohl es Sequenzinformationen verwirft, ist es einfach, effizient und überraschend effektiv für Retrieval, Klassifikation und Clustering.

Warum wird ein Logarithmus auf die Termfrequenz angewendet?

Ein Term, der zehnmal vorkommt, ist nicht zehnmal so wichtig wie einer, der einmal vorkommt. Die Anwendung eines Logarithmus auf die Termfrequenz dämpft diesen Effekt, sodass zusätzliche Vorkommen progressiv weniger Gewicht hinzufügen, was besser widerspiegelt, wie Wiederholung mit Relevanz zusammenhängt.

Dokumentendarstellung und Gewichtung

Die Dokumentendarstellung wandelt Rohtext in eine strukturierte Menge gewichteter Merkmale um, wobei entschieden wird, was als Term zählt und wie stark jeder Term beitragen soll.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Dokumentendarstellung und -gewichtung ist der Prozess der Umwandlung von rohem Dokumententext in einen Vektor von Merkmalen, typischerweise Termen, durch Tokenisierung und Normalisierung des Textes und Zuweisung eines Gewichts zu jedem Merkmal, das dessen Bedeutung innerhalb des Dokuments und über die gesamte Sammlung hinweg widerspiegelt.

Scope

Dieses Thema behandelt die Schritte, die Dokumente in durchsuchbare Darstellungen umwandeln: Tokenisierung, Normalisierung, Stopwort-Behandlung, Stemming und Lemmatisierung sowie die Konstruktion von Bag-of-Words- oder N-Gramm-Merkmalsvektoren, zusammen mit Termgewichtungsschemata wie roher und logarithmischer Termfrequenz, inverser Dokumentenfrequenz und tf-idf mit Längennormalisierung. Es behandelt die Entscheidungen, die die Darstellung für Retrieval, Klassifikation und Clustering prägen, während Ranking-Modelle und latente Darstellungen angrenzenden Themen überlassen werden.

Core questions

Wie wird Rohtext in Terme tokenisiert und normalisiert?
Welche Auswirkungen haben die Entfernung von Stopwörtern, Stemming und Lemmatisierung?
Warum ist die Termfrequenz allein ein schlechtes Gewicht, und wie wird sie transformiert?
Wie erfasst die inverse Dokumentenfrequenz die Termbedeutung über eine Sammlung hinweg?
Wie sorgt die Längennormalisierung dafür, dass lange und kurze Dokumente vergleichbar bleiben?

Key concepts

Tokenisierung und Normalisierung
Stopwörter
Stemming und Lemmatisierung
Bag-of-Words und N-Gramme
Termfrequenz (roh und logarithmisch)
inverse Dokumentenfrequenz
tf-idf-Varianten
Längennormalisierung

Key theories

Bag-of-Words-Darstellung: Die Behandlung eines Dokuments als ungeordnete Multimenge von Termen, die die Wortreihenfolge ignoriert, ergibt einen einfachen, effektiven Merkmalsvektor, der trotz des Verwerfens der Syntax die Grundlage für klassisches Retrieval, Klassifikation und Clustering bildet.
tf-idf-Gewichtungsschemata: Die Kombination einer (oft gedämpften) Termfrequenzkomponente mit inverser Dokumentenfrequenz und Längennormalisierung erzeugt Gewichte, die Terme hervorheben, die in einem Dokument häufig, aber in der Sammlung selten sind, mit vielen dokumentierten Varianten.

Clinical relevance

Repräsentations- und Gewichtungsentscheidungen beeinflussen direkt die Qualität jeder nachfolgenden Aufgabe, von der Suchrangfolge über die Spam-Filterung bis zum Clustering. tf-idf-Repräsentationen bleiben eine starke, interpretierbare Basislinie, und die gleichen Designfragen der Tokenisierung und Normalisierung bestehen in modernen Pipelines, die gelernte Einbettungen speisen.

History

Die Dokumentendarstellung entwickelte sich parallel zum Vektorraummodell in den 1960er und 1970er Jahren, wobei Spärck Jones 1972 die inverse Dokumentenfrequenz einführte und Salton und Buckley 1988 Termgewichtungsvarianten systematisierten. Die Bag-of-Words-Darstellung und tf-idf wurden jahrzehntelang zum Standardsubstrat für die Textverarbeitung in IR und maschinellem Lernen.

Key figures

Gerard Salton
Chris Buckley
Karen Spärck Jones

Seminal works

salton1988
sparckjones1972
manning2008

Frequently asked questions

Was ist das Bag-of-Words-Modell?: Das Bag-of-Words-Modell stellt ein Dokument als die Menge oder Multimenge der darin enthaltenen Terme dar, wobei Wortreihenfolge und Grammatik ignoriert werden. Obwohl es Sequenzinformationen verwirft, ist es einfach, effizient und überraschend effektiv für Retrieval, Klassifikation und Clustering.
Warum wird ein Logarithmus auf die Termfrequenz angewendet?: Ein Term, der zehnmal vorkommt, ist nicht zehnmal so wichtig wie einer, der einmal vorkommt. Die Anwendung eines Logarithmus auf die Termfrequenz dämpft diesen Effekt, sodass zusätzliche Vorkommen progressiv weniger Gewicht hinzufügen, was besser widerspiegelt, wie Wiederholung mit Relevanz zusammenhängt.