什么是词袋模型？

词袋模型将文档表示为其包含的词项集或多重集，忽略词序和语法。尽管舍弃了序列信息，但它简单、高效，并且在检索、分类和聚类方面出奇地有效。

为什么要对词频取对数？

一个词出现十次并不意味着它比出现一次的词重要十倍。对词频取对数可以减弱这种效应，使得额外的出现对权重的增加逐渐减少，更好地反映了重复与相关性之间的关系。

文档表示将原始文本转化为结构化的加权特征集，决定了哪些词语被视为术语以及每个术语应贡献多少权重。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

文档表示与加权是将原始文档文本转换为特征向量（通常是词项）的过程，通过对文本进行分词和规范化，并为每个特征分配一个权重，以反映其在文档内部和整个集合中的重要性。

本主题涵盖将文档转换为可搜索表示的步骤：分词、规范化、停用词处理、词干提取和词形还原，以及词袋或n-gram特征向量的构建，同时涉及词项加权方案，如原始词频和对数词频、逆文档频率，以及带长度归一化的tf-idf。它处理了影响检索、分类和聚类的表示选择，而将排序模型和潜在表示留给相关主题。

词袋表示: 将文档视为无序的词项多重集，忽略词序，产生了一个简单有效的特征向量，尽管舍弃了语法，但它支撑了经典的检索、分类和聚类。
tf-idf加权方案: 将（通常是衰减的）词频分量与逆文档频率和长度归一化相结合，产生强调在文档中频繁出现但在集合中罕见的词项的权重，并有许多已记录的变体。

表示和加权的选择直接影响所有下游任务的质量，从搜索排名到垃圾邮件过滤和聚类。tf-idf表示仍然是一个强大、可解释的基线，并且分词和规范化的相同设计问题在现代管道中依然存在，这些管道为学习嵌入提供输入。

文档表示与向量空间模型在20世纪60年代和70年代一同发展成熟，Spärck Jones于1972年引入了逆文档频率，Salton和Buckley于1988年系统化了词项加权变体。词袋表示和tf-idf在几十年间成为信息检索和机器学习中文本处理的默认基础。

什么是词袋模型？: 词袋模型将文档表示为其包含的词项集或多重集，忽略词序和语法。尽管舍弃了序列信息，但它简单、高效，并且在检索、分类和聚类方面出奇地有效。
为什么要对词频取对数？: 一个词出现十次并不意味着它比出现一次的词重要十倍。对词频取对数可以减弱这种效应，使得额外的出现对权重的增加逐渐减少，更好地反映了重复与相关性之间的关系。