为什么使用余弦相似度而不是欧几里得距离？

余弦相似度比较文档和查询向量的方向而不是它们的大小，这使其对文档长度具有鲁棒性：同一主题的长文档和短文档仍然可以获得高分，而原始距离会惩罚较长的文档。

逆文档频率有什么作用？

逆文档频率会降低出现在许多文档中的词项（例如常用词）的权重，并提高稀有、具有区分度的词项的权重。这可以防止普遍存在的词项主导相似度分数，并将匹配重点放在承载内容的词项上。

向量空间模型

向量空间模型将文档和查询表示为高维空间中词项权重的向量，并通过它们与查询的几何相似性对文档进行排序。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

向量空间模型将文档和查询嵌入为向量，其分量是词项权重，并通过向量相似性度量（最常见的是长度归一化后文档向量和查询向量之间夹角的余弦）来估计相关性。

Scope

本主题涵盖了检索的代数模型，其中每个词项定义一个维度，文档和查询成为加权向量。它讨论了词项加权方案，特别是词频、逆文档频率及其tf-idf乘积、长度归一化以及用于对文档评分的余弦相似度。它将相关性的几何直觉视为词项空间中的接近度，以及排序检索的实际评分，同时将权重的概率解释留给概率模型主题。

Core questions

文档和查询如何转化为共享词汇表上的向量？
为什么将词频与逆文档频率结合会产生有用的权重？
余弦相似度如何在控制文档长度的同时衡量接近度？
从几何角度看，文档与查询相关意味着什么？
将词项视为独立的正交维度有哪些局限性？

Key concepts

词项-文档向量
词频 (tf)
逆文档频率 (idf)
tf-idf 加权
余弦相似度
长度归一化
高维词项空间
词袋假设

Key theories

向量表示和余弦相似度: 将文档和查询表示为词项空间中的向量，可以通过它们之间夹角的余弦来估计相关性，这可以对长度进行归一化，并奖励词项分布与查询一致的文档。
tf-idf 词项加权: 词项的权重随其在文档中的频率而增加，但会因该词项在整个集合中的普遍程度而减弱（通过逆文档频率捕获），从而使具有区分度的词项在评分中占据主导地位。

Clinical relevance

向量空间模型和tf-idf加权是大量搜索和文本分析系统的基础，并且仍然是默认的评分基线。相同的向量表示是现代密集嵌入检索的概念祖先，其中学习到的向量取代了手工制作的词项权重。

History

萨尔顿（Salton）通过SMART系统引入了基于向量的索引，并在1975年与黄（Wong）和杨（Yang）合著的论文中进行了形式化。斯帕克·琼斯（Spärck Jones）1972年对词项特异性的统计解释提供了逆文档频率分量，萨尔顿和巴克利（Buckley）1988年的研究系统化了tf-idf加权变体。该模型在实验性信息检索领域占据主导地位数十年，并塑造了文本在计算中进行数值表示的方式。

Key figures

Gerard Salton
Karen Spärck Jones
Chris Buckley

Seminal works

salton1975
sparckjones1972
salton1988

Frequently asked questions

为什么使用余弦相似度而不是欧几里得距离？: 余弦相似度比较文档和查询向量的方向而不是它们的大小，这使其对文档长度具有鲁棒性：同一主题的长文档和短文档仍然可以获得高分，而原始距离会惩罚较长的文档。
逆文档频率有什么作用？: 逆文档频率会降低出现在许多文档中的词项（例如常用词）的权重，并提高稀有、具有区分度的词项的权重。这可以防止普遍存在的词项主导相似度分数，并将匹配重点放在承载内容的词项上。