向量空间模型
向量空间模型将文档和查询表示为高维空间中词项权重的向量,并通过它们与查询的几何相似性对文档进行排序。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
向量空间模型将文档和查询嵌入为向量,其分量是词项权重,并通过向量相似性度量(最常见的是长度归一化后文档向量和查询向量之间夹角的余弦)来估计相关性。
Scope
本主题涵盖了检索的代数模型,其中每个词项定义一个维度,文档和查询成为加权向量。它讨论了词项加权方案,特别是词频、逆文档频率及其tf-idf乘积、长度归一化以及用于对文档评分的余弦相似度。它将相关性的几何直觉视为词项空间中的接近度,以及排序检索的实际评分,同时将权重的概率解释留给概率模型主题。
Core questions
- 文档和查询如何转化为共享词汇表上的向量?
- 为什么将词频与逆文档频率结合会产生有用的权重?
- 余弦相似度如何在控制文档长度的同时衡量接近度?
- 从几何角度看,文档与查询相关意味着什么?
- 将词项视为独立的正交维度有哪些局限性?
Key concepts
- 词项-文档向量
- 词频 (tf)
- 逆文档频率 (idf)
- tf-idf 加权
- 余弦相似度
- 长度归一化
- 高维词项空间
- 词袋假设
Key theories
- 向量表示和余弦相似度
- 将文档和查询表示为词项空间中的向量,可以通过它们之间夹角的余弦来估计相关性,这可以对长度进行归一化,并奖励词项分布与查询一致的文档。
- tf-idf 词项加权
- 词项的权重随其在文档中的频率而增加,但会因该词项在整个集合中的普遍程度而减弱(通过逆文档频率捕获),从而使具有区分度的词项在评分中占据主导地位。
Clinical relevance
向量空间模型和tf-idf加权是大量搜索和文本分析系统的基础,并且仍然是默认的评分基线。相同的向量表示是现代密集嵌入检索的概念祖先,其中学习到的向量取代了手工制作的词项权重。
History
萨尔顿(Salton)通过SMART系统引入了基于向量的索引,并在1975年与黄(Wong)和杨(Yang)合著的论文中进行了形式化。斯帕克·琼斯(Spärck Jones)1972年对词项特异性的统计解释提供了逆文档频率分量,萨尔顿和巴克利(Buckley)1988年的研究系统化了tf-idf加权变体。该模型在实验性信息检索领域占据主导地位数十年,并塑造了文本在计算中进行数值表示的方式。
Key figures
- Gerard Salton
- Karen Spärck Jones
- Chris Buckley
Related topics
Seminal works
- salton1975
- sparckjones1972
- salton1988
Frequently asked questions
- 为什么使用余弦相似度而不是欧几里得距离?
- 余弦相似度比较文档和查询向量的方向而不是它们的大小,这使其对文档长度具有鲁棒性:同一主题的长文档和短文档仍然可以获得高分,而原始距离会惩罚较长的文档。
- 逆文档频率有什么作用?
- 逆文档频率会降低出现在许多文档中的词项(例如常用词)的权重,并提高稀有、具有区分度的词项的权重。这可以防止普遍存在的词项主导相似度分数,并将匹配重点放在承载内容的词项上。