文本分类和文本聚类有什么区别？

分类是有监督的：它使用带标签的训练示例将文档分配到预定义类别。聚类是无监督的：它根据相似性对文档进行分组，没有预定义类别，是发现结构而不是将其拟合到已知标签。

为什么潜在主题模型对检索有用？

主题和潜在语义模型通过底层主题而不是确切的词语来表示文档，这有助于匹配使用不同词汇表达相同概念的查询和文档，并支持按主题浏览集合。

文本表示与分类涵盖了文档如何转化为特征，以及这些表示如何支持按类别、相似性和潜在主题组织文档集合。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

文本表示与分类是一系列方法，用于将文档转换为特征表示，并对这些表示进行分配、分组或投影，包括有监督的分类到已知类别、无监督聚类以及潜在主题或语义建模，以服务于检索和集合组织。

该领域涵盖了用于检索的文本表示以及文档集合的无监督和有监督组织：文档表示和术语加权、将文本自动分类到预定义类别、将文本聚类到发现的组中，以及揭示隐藏结构的潜在语义和主题模型。它将表示和组织视为支持信息检索，借鉴机器学习，同时侧重于这些方法在检索方面的应用，而非通用机器学习理论。

这些方法为垃圾邮件过滤、基于主题的路由和过滤、分面浏览、去重和搜索结果组织提供了支持，而主题和语义模型则支持探索性搜索和推荐。文档表示也是现代检索中从稀疏术语向量转向密集学习嵌入的基础。

文本分类从20世纪80年代的基于规则的系统发展到20世纪90年代的机器学习领域，并在Sebastiani 2002年的综述中得到巩固。潜在语义分析（1990）引入了用于检索的降维技术，而潜在狄利克雷分配（2003）确立了概率主题建模，两者都塑造了文本中语义结构的表示方式。

文本分类和文本聚类有什么区别？: 分类是有监督的：它使用带标签的训练示例将文档分配到预定义类别。聚类是无监督的：它根据相似性对文档进行分组，没有预定义类别，是发现结构而不是将其拟合到已知标签。
为什么潜在主题模型对检索有用？: 主题和潜在语义模型通过底层主题而不是确切的词语来表示文档，这有助于匹配使用不同词汇表达相同概念的查询和文档，并支持按主题浏览集合。