文档表示与加权
文档表示将原始文本转化为结构化的加权特征集,决定了哪些词语被视为术语以及每个术语应贡献多少权重。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
文档表示与加权是将原始文档文本转换为特征向量(通常是词项)的过程,通过对文本进行分词和规范化,并为每个特征分配一个权重,以反映其在文档内部和整个集合中的重要性。
Scope
本主题涵盖将文档转换为可搜索表示的步骤:分词、规范化、停用词处理、词干提取和词形还原,以及词袋或n-gram特征向量的构建,同时涉及词项加权方案,如原始词频和对数词频、逆文档频率,以及带长度归一化的tf-idf。它处理了影响检索、分类和聚类的表示选择,而将排序模型和潜在表示留给相关主题。
Core questions
- 原始文本如何被分词和规范化为词项?
- 停用词移除、词干提取和词形还原有什么影响?
- 为什么单独的词频是一个糟糕的权重,以及如何对其进行转换?
- 逆文档频率如何捕捉词项在整个集合中的重要性?
- 长度归一化如何使长文档和短文档具有可比性?
Key concepts
- 分词和规范化
- 停用词
- 词干提取和词形还原
- 词袋和n-gram
- 词频(原始和对数)
- 逆文档频率
- tf-idf变体
- 长度归一化
Key theories
- 词袋表示
- 将文档视为无序的词项多重集,忽略词序,产生了一个简单有效的特征向量,尽管舍弃了语法,但它支撑了经典的检索、分类和聚类。
- tf-idf加权方案
- 将(通常是衰减的)词频分量与逆文档频率和长度归一化相结合,产生强调在文档中频繁出现但在集合中罕见的词项的权重,并有许多已记录的变体。
Clinical relevance
表示和加权的选择直接影响所有下游任务的质量,从搜索排名到垃圾邮件过滤和聚类。tf-idf表示仍然是一个强大、可解释的基线,并且分词和规范化的相同设计问题在现代管道中依然存在,这些管道为学习嵌入提供输入。
History
文档表示与向量空间模型在20世纪60年代和70年代一同发展成熟,Spärck Jones于1972年引入了逆文档频率,Salton和Buckley于1988年系统化了词项加权变体。词袋表示和tf-idf在几十年间成为信息检索和机器学习中文本处理的默认基础。
Key figures
- Gerard Salton
- Chris Buckley
- Karen Spärck Jones
Related topics
Seminal works
- salton1988
- sparckjones1972
- manning2008
Frequently asked questions
- 什么是词袋模型?
- 词袋模型将文档表示为其包含的词项集或多重集,忽略词序和语法。尽管舍弃了序列信息,但它简单、高效,并且在检索、分类和聚类方面出奇地有效。
- 为什么要对词频取对数?
- 一个词出现十次并不意味着它比出现一次的词重要十倍。对词频取对数可以减弱这种效应,使得额外的出现对权重的增加逐渐减少,更好地反映了重复与相关性之间的关系。