潜在语义和主题模型
潜在语义和主题模型通过隐藏主题而非表面词汇来表示文档,从而捕捉语义关系并缓解查询与文档之间的词汇不匹配问题。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
潜在语义和主题模型是降维和生成方法,它们将文档表示为少量潜在维度或主题的组合,这些维度或主题源自词-文档矩阵中的共现结构,从而使语义相关的词汇和文档彼此靠近。
Scope
本主题涵盖了揭示文本潜在结构的方法:通过词-文档矩阵的截断奇异值分解进行的潜在语义分析(也称为潜在语义索引)、概率潜在语义索引以及潜在狄利克雷分配和相关的概率主题模型。它探讨了这些投影如何捕捉同义词和语义相似性,主题如何被解释,以及这些表示如何支持检索和浏览。它不包括通用矩阵分解和神经嵌入方法,除非它们被用作语义文本表示。
Core questions
- 截断奇异值分解如何产生潜在语义空间?
- 潜在表示如何解决同义词和词汇不匹配问题?
- LDA等概率主题模型如何从主题生成文档?
- 如何解释和标注生成的主题?
- 潜在表示如何改进检索、浏览和相似性?
Key concepts
- 潜在语义分析/索引
- 词-文档矩阵
- 截断奇异值分解
- 降维
- 同义词和多义词
- 概率潜在语义索引
- 潜在狄利克雷分配
- 主题-词和文档-主题分布
Key theories
- 潜在语义分析
- 对词-文档矩阵应用截断奇异值分解,将文档和词汇投影到低维潜在空间中,使语义相关的项彼此靠近,从而缓解同义词问题并捕捉高阶共现。
- 概率主题模型
- 概率潜在语义索引和潜在狄利克雷分配将每个文档建模为潜在主题的混合,每个主题都是词汇上的分布,从而提供了文档内容的可解释的生成式描述。
Clinical relevance
潜在和主题模型通过主题支持语义搜索、文档相似性、推荐和语料库探索,有助于匹配概念而非精确词汇。它们是密集神经嵌入的概念前身,后者现在为大规模检索提供了学习到的语义表示。
History
潜在语义分析于1990年被引入,旨在通过矩阵分解克服词汇不匹配问题。Hofmann在1999年提出的概率潜在语义索引给出了生成式重构,而Blei、Ng和Jordan在2003年提出的潜在狄利克雷分配确立了贝叶斯主题建模,这成为分析大型文本语料库的重要工具。
Key figures
- Susan Dumais
- Thomas Landauer
- Thomas Hofmann
- David Blei
Related topics
Seminal works
- deerwester1990
- hofmann1999
- blei2003
Frequently asked questions
- 潜在语义模型如何帮助解决词汇不匹配问题?
- 通过将文档和词汇基于共现投影到共享的潜在空间中,这些模型将同义词和相关词汇放置得彼此靠近。查询和相关文档即使使用不同的词汇表达相同概念,也可以通过共享的潜在维度进行匹配。
- 潜在狄利克雷分配(LDA)实际产生什么?
- LDA学习一组主题,每个主题都是词汇上的分布,并将每个文档表示为这些主题的混合。这提供了可解释的主题和紧凑的文档表示,有助于组织、搜索和分析大型集合。