ScholarGate
助手

文本聚类

文本聚类将文档分组为内容相似的簇,无需预定义类别,从而揭示文档集合的结构并支持浏览和检索。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

文本聚类是对文档集合进行无监督划分,将文档分成若干组,使得组内的文档彼此之间比与组外文档更相似,该过程使用基于文档表示的相似性度量,且不依赖预定义标签。

Scope

本主题涵盖文档的无监督分组:例如基于文档向量的k-均值等平面划分方法、层次凝聚聚类、所涉及的相似性度量和判别函数,以及内部和针对外部标签的聚类质量评估。它还涵盖了检索特定的动机,特别是聚类假设和搜索结果聚类。它将聚类视为服务于信息检索,区别于有监督分类和潜在主题模型。

Core questions

  • 如何衡量文档间的相似性以进行聚类?
  • k-均值等平面方法与层次凝聚聚类有何不同?
  • 如何选择聚类数量?
  • 在没有真实标签的情况下如何评估聚类质量?
  • 聚类假设对检索有何启示?

Key concepts

  • 无监督聚类
  • 文档相似性(余弦相似度)
  • k-均值聚类
  • 层次凝聚聚类
  • 判别函数
  • 聚类假设
  • 内部和外部聚类评估
  • 搜索结果聚类

Key theories

聚类假设
与同一查询相关的文档往往彼此相似,因此聚类可以将相关文档分组在一起,从而推动基于聚类的检索和结果组织。
平面聚类和层次聚类
k-均值等平面方法通过优化判别函数将文档划分为选定数量的簇,而层次凝聚方法则构建一个嵌套的簇树,判别函数的选择对文档聚类质量有显著影响。

Clinical relevance

聚类支持探索和组织大型文档集:按子主题对搜索结果进行分组、新闻去重和组织、构建数字图书馆,以及为探索性搜索提供概览。聚类假设也为利用文档相似性的检索方法提供了依据。

History

聚类早期就应用于检索,van Rijsbergen在20世纪70年代阐述了聚类假设,作为基于聚类检索的理论基础。随着文档集合的增长,k-均值和二分变体等可扩展方法以及对聚类判别标准的仔细比较变得普遍,搜索结果聚类也成为组织网络搜索输出的一种方式。

Key figures

  • C. J. van Rijsbergen
  • George Karypis
  • Christopher Manning

Related topics

Seminal works

  • vanrijsbergen1979
  • manning2008
  • zhao2004

Frequently asked questions

什么是聚类假设?
聚类假设指出,与同一信息需求相关的文档往往彼此相似。如果该假设成立,那么将相似文档分组可以使相关文档聚集在一起,这可以用于改进或组织检索结果。
在没有标签的情况下如何评估聚类?
内部度量直接从数据评估聚类的内聚性和分离性,而外部度量则在已知分类可用时,将聚类结果与已知分类进行比较。由于聚类是无监督的,且“正确性”取决于预期目的,因此这两种方法都会使用。

Methods for this concept

Related concepts