文本表示与分类
文本表示与分类涵盖了文档如何转化为特征,以及这些表示如何支持按类别、相似性和潜在主题组织文档集合。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
文本表示与分类是一系列方法,用于将文档转换为特征表示,并对这些表示进行分配、分组或投影,包括有监督的分类到已知类别、无监督聚类以及潜在主题或语义建模,以服务于检索和集合组织。
Scope
该领域涵盖了用于检索的文本表示以及文档集合的无监督和有监督组织:文档表示和术语加权、将文本自动分类到预定义类别、将文本聚类到发现的组中,以及揭示隐藏结构的潜在语义和主题模型。它将表示和组织视为支持信息检索,借鉴机器学习,同时侧重于这些方法在检索方面的应用,而非通用机器学习理论。
Sub-topics
Core questions
- 文档如何转换为特征,术语如何加权?
- 文档如何自动分类到预定义类别?
- 如何在没有预定义标签的情况下将集合分组到聚类中?
- 潜在主题和语义模型如何揭示文本中的隐藏结构?
- 这些表示如何改进检索、浏览和过滤?
Key concepts
- 文档表示
- 术语加权 (tf-idf)
- 文本分类
- 文本聚类
- 潜在语义分析
- 主题模型
- 特征选择
- 词汇不匹配
Key theories
- 向量表示与术语加权
- 将文档表示为加权特征向量,通常是带有tf-idf式权重的术语向量,为分类、聚类和相似性计算提供了共同的基础。
- 有监督文本分类
- 给定带标签的示例,机器学习分类器可以将文档分配到预定义类别,特征和学习器的选择决定了准确性,这在文本分类文献中已有系统化阐述。
- 潜在语义与主题结构
- 潜在语义分析和潜在狄利克雷分配等方法将文档投影到低维空间或主题分布中,捕捉语义关系并缓解词汇不匹配问题。
Clinical relevance
这些方法为垃圾邮件过滤、基于主题的路由和过滤、分面浏览、去重和搜索结果组织提供了支持,而主题和语义模型则支持探索性搜索和推荐。文档表示也是现代检索中从稀疏术语向量转向密集学习嵌入的基础。
History
文本分类从20世纪80年代的基于规则的系统发展到20世纪90年代的机器学习领域,并在Sebastiani 2002年的综述中得到巩固。潜在语义分析(1990)引入了用于检索的降维技术,而潜在狄利克雷分配(2003)确立了概率主题建模,两者都塑造了文本中语义结构的表示方式。
Key figures
- Fabrizio Sebastiani
- Susan Dumais
- David Blei
- Christopher Manning
Related topics
Seminal works
- manning2008
- sebastiani2002
- deerwester1990
- blei2003
Frequently asked questions
- 文本分类和文本聚类有什么区别?
- 分类是有监督的:它使用带标签的训练示例将文档分配到预定义类别。聚类是无监督的:它根据相似性对文档进行分组,没有预定义类别,是发现结构而不是将其拟合到已知标签。
- 为什么潜在主题模型对检索有用?
- 主题和潜在语义模型通过底层主题而不是确切的词语来表示文档,这有助于匹配使用不同词汇表达相同概念的查询和文档,并支持按主题浏览集合。