Dokumentendarstellung und Gewichtung
Die Dokumentendarstellung wandelt Rohtext in eine strukturierte Menge gewichteter Merkmale um, wobei entschieden wird, was als Term zählt und wie stark jeder Term beitragen soll.
Definition
Dokumentendarstellung und -gewichtung ist der Prozess der Umwandlung von rohem Dokumententext in einen Vektor von Merkmalen, typischerweise Termen, durch Tokenisierung und Normalisierung des Textes und Zuweisung eines Gewichts zu jedem Merkmal, das dessen Bedeutung innerhalb des Dokuments und über die gesamte Sammlung hinweg widerspiegelt.
Scope
Dieses Thema behandelt die Schritte, die Dokumente in durchsuchbare Darstellungen umwandeln: Tokenisierung, Normalisierung, Stopwort-Behandlung, Stemming und Lemmatisierung sowie die Konstruktion von Bag-of-Words- oder N-Gramm-Merkmalsvektoren, zusammen mit Termgewichtungsschemata wie roher und logarithmischer Termfrequenz, inverser Dokumentenfrequenz und tf-idf mit Längennormalisierung. Es behandelt die Entscheidungen, die die Darstellung für Retrieval, Klassifikation und Clustering prägen, während Ranking-Modelle und latente Darstellungen angrenzenden Themen überlassen werden.
Core questions
- Wie wird Rohtext in Terme tokenisiert und normalisiert?
- Welche Auswirkungen haben die Entfernung von Stopwörtern, Stemming und Lemmatisierung?
- Warum ist die Termfrequenz allein ein schlechtes Gewicht, und wie wird sie transformiert?
- Wie erfasst die inverse Dokumentenfrequenz die Termbedeutung über eine Sammlung hinweg?
- Wie sorgt die Längennormalisierung dafür, dass lange und kurze Dokumente vergleichbar bleiben?
Key concepts
- Tokenisierung und Normalisierung
- Stopwörter
- Stemming und Lemmatisierung
- Bag-of-Words und N-Gramme
- Termfrequenz (roh und logarithmisch)
- inverse Dokumentenfrequenz
- tf-idf-Varianten
- Längennormalisierung
Key theories
- Bag-of-Words-Darstellung
- Die Behandlung eines Dokuments als ungeordnete Multimenge von Termen, die die Wortreihenfolge ignoriert, ergibt einen einfachen, effektiven Merkmalsvektor, der trotz des Verwerfens der Syntax die Grundlage für klassisches Retrieval, Klassifikation und Clustering bildet.
- tf-idf-Gewichtungsschemata
- Die Kombination einer (oft gedämpften) Termfrequenzkomponente mit inverser Dokumentenfrequenz und Längennormalisierung erzeugt Gewichte, die Terme hervorheben, die in einem Dokument häufig, aber in der Sammlung selten sind, mit vielen dokumentierten Varianten.
Clinical relevance
Repräsentations- und Gewichtungsentscheidungen beeinflussen direkt die Qualität jeder nachfolgenden Aufgabe, von der Suchrangfolge über die Spam-Filterung bis zum Clustering. tf-idf-Repräsentationen bleiben eine starke, interpretierbare Basislinie, und die gleichen Designfragen der Tokenisierung und Normalisierung bestehen in modernen Pipelines, die gelernte Einbettungen speisen.
History
Die Dokumentendarstellung entwickelte sich parallel zum Vektorraummodell in den 1960er und 1970er Jahren, wobei Spärck Jones 1972 die inverse Dokumentenfrequenz einführte und Salton und Buckley 1988 Termgewichtungsvarianten systematisierten. Die Bag-of-Words-Darstellung und tf-idf wurden jahrzehntelang zum Standardsubstrat für die Textverarbeitung in IR und maschinellem Lernen.
Key figures
- Gerard Salton
- Chris Buckley
- Karen Spärck Jones
Related topics
Seminal works
- salton1988
- sparckjones1972
- manning2008
Frequently asked questions
- Was ist das Bag-of-Words-Modell?
- Das Bag-of-Words-Modell stellt ein Dokument als die Menge oder Multimenge der darin enthaltenen Terme dar, wobei Wortreihenfolge und Grammatik ignoriert werden. Obwohl es Sequenzinformationen verwirft, ist es einfach, effizient und überraschend effektiv für Retrieval, Klassifikation und Clustering.
- Warum wird ein Logarithmus auf die Termfrequenz angewendet?
- Ein Term, der zehnmal vorkommt, ist nicht zehnmal so wichtig wie einer, der einmal vorkommt. Die Anwendung eines Logarithmus auf die Termfrequenz dämpft diesen Effekt, sodass zusätzliche Vorkommen progressiv weniger Gewicht hinzufügen, was besser widerspiegelt, wie Wiederholung mit Relevanz zusammenhängt.