ScholarGate
助手

文档表示与加权

文档表示将原始文本转化为结构化的加权特征集,决定了哪些词语被视为术语以及每个术语应贡献多少权重。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

文档表示与加权是将原始文档文本转换为特征向量(通常是词项)的过程,通过对文本进行分词和规范化,并为每个特征分配一个权重,以反映其在文档内部和整个集合中的重要性。

Scope

本主题涵盖将文档转换为可搜索表示的步骤:分词、规范化、停用词处理、词干提取和词形还原,以及词袋或n-gram特征向量的构建,同时涉及词项加权方案,如原始词频和对数词频、逆文档频率,以及带长度归一化的tf-idf。它处理了影响检索、分类和聚类的表示选择,而将排序模型和潜在表示留给相关主题。

Core questions

  • 原始文本如何被分词和规范化为词项?
  • 停用词移除、词干提取和词形还原有什么影响?
  • 为什么单独的词频是一个糟糕的权重,以及如何对其进行转换?
  • 逆文档频率如何捕捉词项在整个集合中的重要性?
  • 长度归一化如何使长文档和短文档具有可比性?

Key concepts

  • 分词和规范化
  • 停用词
  • 词干提取和词形还原
  • 词袋和n-gram
  • 词频(原始和对数)
  • 逆文档频率
  • tf-idf变体
  • 长度归一化

Key theories

词袋表示
将文档视为无序的词项多重集,忽略词序,产生了一个简单有效的特征向量,尽管舍弃了语法,但它支撑了经典的检索、分类和聚类。
tf-idf加权方案
将(通常是衰减的)词频分量与逆文档频率和长度归一化相结合,产生强调在文档中频繁出现但在集合中罕见的词项的权重,并有许多已记录的变体。

Clinical relevance

表示和加权的选择直接影响所有下游任务的质量,从搜索排名到垃圾邮件过滤和聚类。tf-idf表示仍然是一个强大、可解释的基线,并且分词和规范化的相同设计问题在现代管道中依然存在,这些管道为学习嵌入提供输入。

History

文档表示与向量空间模型在20世纪60年代和70年代一同发展成熟,Spärck Jones于1972年引入了逆文档频率,Salton和Buckley于1988年系统化了词项加权变体。词袋表示和tf-idf在几十年间成为信息检索和机器学习中文本处理的默认基础。

Key figures

  • Gerard Salton
  • Chris Buckley
  • Karen Spärck Jones

Related topics

Seminal works

  • salton1988
  • sparckjones1972
  • manning2008

Frequently asked questions

什么是词袋模型?
词袋模型将文档表示为其包含的词项集或多重集,忽略词序和语法。尽管舍弃了序列信息,但它简单、高效,并且在检索、分类和聚类方面出奇地有效。
为什么要对词频取对数?
一个词出现十次并不意味着它比出现一次的词重要十倍。对词频取对数可以减弱这种效应,使得额外的出现对权重的增加逐渐减少,更好地反映了重复与相关性之间的关系。

Methods for this concept

Related concepts