Латентные семантические и тематические модели
Латентные семантические и тематические модели представляют документы посредством скрытых тем, а не поверхностных слов, улавливая семантические связи и облегчая несоответствие словарного запаса между запросами и документами.
Definition
Латентные семантические и тематические модели — это методы уменьшения размерности и генеративные методы, которые представляют документы как комбинации небольшого числа латентных измерений или тем, полученных из структуры совместной встречаемости в матрице «терм-документ», так что семантически связанные термины и документы располагаются близко друг к другу.
Scope
Эта тема охватывает методы, которые выявляют латентную структуру в тексте: латентный семантический анализ (также называемый латентным семантическим индексированием) посредством усеченного сингулярного разложения матрицы «терм-документ», вероятностное латентное семантическое индексирование и латентное размещение Дирихле, а также связанные вероятностные тематические модели. В ней рассматривается, как эти проекции улавливают синонимию и семантическое сходство, как интерпретируются темы и как эти представления поддерживают поиск и просмотр. Она исключает общие методы матричной факторизации и нейронных встраиваний, выходящие за рамки их использования в качестве семантических текстовых представлений.
Core questions
- Как усеченное сингулярное разложение создает латентное семантическое пространство?
- Как латентные представления решают проблему синонимии и несоответствия словарного запаса?
- Как вероятностные тематические модели, такие как LDA, генерируют документы из тем?
- Как интерпретируются и маркируются полученные темы?
- Как латентные представления улучшают поиск, просмотр и определение сходства?
Key concepts
- латентный семантический анализ / индексирование
- матрица «терм-документ»
- усеченное сингулярное разложение
- уменьшение размерности
- синонимия и полисемия
- вероятностное латентное семантическое индексирование
- латентное размещение Дирихле
- распределения «тема-слово» и «документ-тема»
Key theories
- Латентный семантический анализ
- Применение усеченного сингулярного разложения к матрице «терм-документ» проецирует документы и термины в низкоразмерное латентное пространство, где семантически связанные элементы находятся близко друг к другу, что уменьшает синонимию и улавливает совместную встречаемость более высокого порядка.
- Вероятностные тематические модели
- Вероятностное латентное семантическое индексирование и латентное размещение Дирихле моделируют каждый документ как смесь латентных тем, каждая из которых представляет собой распределение по словам, обеспечивая генеративное, интерпретируемое описание содержания документа.
Clinical relevance
Латентные и тематические модели поддерживают семантический поиск, определение сходства документов, рекомендации и исследование корпусов по темам, помогая сопоставлять концепции, а не точные слова. Они являются концептуальными предшественниками плотных нейронных встраиваний, которые в настоящее время обеспечивают изученные семантические представления для поиска в больших масштабах.
History
Латентный семантический анализ был введен в 1990 году для преодоления несоответствия словарного запаса посредством матричного разложения. Вероятностное латентное семантическое индексирование Хофманна 1999 года дало генеративную переформулировку, а латентное размещение Дирихле Блея, Нга и Джордана 2003 года установило байесовское тематическое моделирование, которое стало основным инструментом для анализа больших текстовых корпусов.
Key figures
- Susan Dumais
- Thomas Landauer
- Thomas Hofmann
- David Blei
Related topics
Seminal works
- deerwester1990
- hofmann1999
- blei2003
Frequently asked questions
- Как латентные семантические модели помогают при несоответствии словарного запаса?
- Проецируя документы и термины в общее латентное пространство на основе совместной встречаемости, эти модели располагают синонимы и связанные термины близко друг к другу. Запрос и соответствующий документ могут затем совпадать через общие латентные измерения, даже если они используют разные слова для одной и той же концепции.
- Что на самом деле производит латентное размещение Дирихле?
- LDA изучает набор тем, каждая из которых представляет собой распределение по словам, и представляет каждый документ как смесь этих тем. Это дает интерпретируемые темы и компактное представление документа, полезное для организации, поиска и анализа больших коллекций.