ScholarGate
助手

向量空间模型

向量空间模型将文档和查询表示为高维空间中词项权重的向量,并通过它们与查询的几何相似性对文档进行排序。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

向量空间模型将文档和查询嵌入为向量,其分量是词项权重,并通过向量相似性度量(最常见的是长度归一化后文档向量和查询向量之间夹角的余弦)来估计相关性。

Scope

本主题涵盖了检索的代数模型,其中每个词项定义一个维度,文档和查询成为加权向量。它讨论了词项加权方案,特别是词频、逆文档频率及其tf-idf乘积、长度归一化以及用于对文档评分的余弦相似度。它将相关性的几何直觉视为词项空间中的接近度,以及排序检索的实际评分,同时将权重的概率解释留给概率模型主题。

Core questions

  • 文档和查询如何转化为共享词汇表上的向量?
  • 为什么将词频与逆文档频率结合会产生有用的权重?
  • 余弦相似度如何在控制文档长度的同时衡量接近度?
  • 从几何角度看,文档与查询相关意味着什么?
  • 将词项视为独立的正交维度有哪些局限性?

Key concepts

  • 词项-文档向量
  • 词频 (tf)
  • 逆文档频率 (idf)
  • tf-idf 加权
  • 余弦相似度
  • 长度归一化
  • 高维词项空间
  • 词袋假设

Key theories

向量表示和余弦相似度
将文档和查询表示为词项空间中的向量,可以通过它们之间夹角的余弦来估计相关性,这可以对长度进行归一化,并奖励词项分布与查询一致的文档。
tf-idf 词项加权
词项的权重随其在文档中的频率而增加,但会因该词项在整个集合中的普遍程度而减弱(通过逆文档频率捕获),从而使具有区分度的词项在评分中占据主导地位。

Clinical relevance

向量空间模型和tf-idf加权是大量搜索和文本分析系统的基础,并且仍然是默认的评分基线。相同的向量表示是现代密集嵌入检索的概念祖先,其中学习到的向量取代了手工制作的词项权重。

History

萨尔顿(Salton)通过SMART系统引入了基于向量的索引,并在1975年与黄(Wong)和杨(Yang)合著的论文中进行了形式化。斯帕克·琼斯(Spärck Jones)1972年对词项特异性的统计解释提供了逆文档频率分量,萨尔顿和巴克利(Buckley)1988年的研究系统化了tf-idf加权变体。该模型在实验性信息检索领域占据主导地位数十年,并塑造了文本在计算中进行数值表示的方式。

Key figures

  • Gerard Salton
  • Karen Spärck Jones
  • Chris Buckley

Related topics

Seminal works

  • salton1975
  • sparckjones1972
  • salton1988

Frequently asked questions

为什么使用余弦相似度而不是欧几里得距离?
余弦相似度比较文档和查询向量的方向而不是它们的大小,这使其对文档长度具有鲁棒性:同一主题的长文档和短文档仍然可以获得高分,而原始距离会惩罚较长的文档。
逆文档频率有什么作用?
逆文档频率会降低出现在许多文档中的词项(例如常用词)的权重,并提高稀有、具有区分度的词项的权重。这可以防止普遍存在的词项主导相似度分数,并将匹配重点放在承载内容的词项上。

Methods for this concept

Related concepts