Vektorraummodell
Das Vektorraummodell repräsentiert Dokumente und Anfragen als Vektoren von Termgewichtungen in einem hochdimensionalen Raum und ordnet Dokumente nach ihrer geometrischen Ähnlichkeit zur Anfrage.
Definition
Das Vektorraummodell bettet Dokumente und Anfragen als Vektoren ein, deren Komponenten Termgewichtungen sind, und schätzt die Relevanz durch ein Vektorähnlichkeitsmaß, am häufigsten den Kosinus des Winkels zwischen den Dokument- und Anfragevektoren nach Längennormalisierung.
Scope
Dieses Thema behandelt das algebraische Modell des Information Retrieval, bei dem jeder Term eine Dimension definiert und Dokumente und Anfragen zu gewichteten Vektoren werden. Es befasst sich mit Termgewichtungsschemata, insbesondere Termfrequenz, inverser Dokumentfrequenz und deren tf-idf-Produkt, Längennormalisierung und der Kosinusähnlichkeit, die zur Bewertung von Dokumenten verwendet wird. Es behandelt die geometrische Intuition der Relevanz als Nähe im Termraum und die praktische Bewertung des Rang-Retrievals, während die probabilistische Begründung von Gewichtungen dem Thema der probabilistischen Modelle überlassen wird.
Core questions
- Wie werden Dokumente und Anfragen in Vektoren über ein gemeinsames Termvokabular umgewandelt?
- Warum führt die Kombination von Termfrequenz mit inverser Dokumentfrequenz zu nützlichen Gewichtungen?
- Wie misst die Kosinusähnlichkeit die Nähe unter Berücksichtigung der Dokumentlänge?
- Was bedeutet es geometrisch, wenn ein Dokument für eine Anfrage relevant ist?
- Welche Einschränkungen ergeben sich aus der Annahme, dass Terme unabhängige orthogonale Dimensionen sind?
Key concepts
- Term-Dokument-Vektor
- Termfrequenz (tf)
- inverse Dokumentfrequenz (idf)
- tf-idf-Gewichtung
- Kosinusähnlichkeit
- Längennormalisierung
- hochdimensionaler Termraum
- Bag-of-Words-Annahme
Key theories
- Vektordarstellung und Kosinusähnlichkeit
- Die Darstellung von Dokumenten und Anfragen als Vektoren im Termraum ermöglicht die Schätzung der Relevanz durch den Kosinus des Winkels zwischen ihnen, der die Länge normalisiert und Dokumente belohnt, deren Termverteilung mit der Anfrage übereinstimmt.
- tf-idf-Termgewichtung
- Die Gewichtung eines Terms steigt mit seiner Häufigkeit in einem Dokument, wird aber durch die Häufigkeit des Terms in der gesamten Sammlung gedämpft, was durch die inverse Dokumentfrequenz erfasst wird, sodass diskriminierende Terme die Bewertung dominieren.
Clinical relevance
Das Vektorraummodell und die tf-idf-Gewichtung bilden die Grundlage einer Vielzahl von Such- und Textanalysesystemen und bleiben eine Standard-Scoring-Baseline. Dieselbe Vektordarstellung ist der konzeptionelle Vorläufer moderner dichter Einbettungs-Retrieval-Systeme, bei denen gelernte Vektoren handgefertigte Termgewichtungen ersetzen.
History
Salton führte die vektorbasierte Indexierung durch das SMART-System ein, die 1975 in der Arbeit mit Wong und Yang formalisiert wurde. Spärck Jones' statistische Interpretation der Termspezifität von 1972 lieferte die Komponente der inversen Dokumentfrequenz, und Salton und Buckleys Studie von 1988 systematisierte tf-idf-Gewichtungsvarianten. Das Modell dominierte die experimentelle IR über Jahrzehnte und prägte die numerische Darstellung von Text in der gesamten Computerwelt.
Key figures
- Gerard Salton
- Karen Spärck Jones
- Chris Buckley
Related topics
Seminal works
- salton1975
- sparckjones1972
- salton1988
Frequently asked questions
- Warum wird die Kosinusähnlichkeit anstelle des euklidischen Abstands verwendet?
- Die Kosinusähnlichkeit vergleicht die Richtung der Dokument- und Anfragevektoren und nicht deren Betrag, was sie robust gegenüber der Dokumentlänge macht: Ein langes und ein kurzes Dokument zum selben Thema können immer noch hoch bewertet werden, während der reine Abstand das längere Dokument bestrafen würde.
- Was bewirkt die inverse Dokumentfrequenz?
- Die inverse Dokumentfrequenz gewichtet Terme, die in vielen Dokumenten vorkommen, wie z. B. häufige Wörter, herab und verstärkt seltene, diskriminierende Terme. Dies verhindert, dass allgegenwärtige Wörter die Ähnlichkeitsbewertungen dominieren, und konzentriert die Übereinstimmung auf inhaltsrelevante Terme.