ScholarGate
Ассистент

Тематическое моделирование и интеллектуальный анализ текста

Тематическое моделирование просматривает корпус подобно тому, как это делает человек, быстро пробегающий текст, сортируя слова по повторяющимся кластерам совместно встречающихся терминов, которые часто выглядят как темы. Этот метод и связанные с ним методы интеллектуального анализа текста позволяют исследователям изучать огромные коллекции, но выявленные ими закономерности должны интерпретироваться с осторожностью.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Использование статистических методов без учителя — в частности, вероятностных тематических моделей — и связанных с ними методов интеллектуального анализа текста для обнаружения скрытой тематической и лексической структуры в больших гуманитарных корпусах.

Scope

Охватывает методы обучения без учителя для обнаружения структуры в больших текстовых коллекциях, особенно вероятностные тематические модели, такие как латентное размещение Дирихле (Latent Dirichlet Allocation), и более широкие методы интеллектуального анализа текста для извлечения закономерностей и тенденций. Включает в себя то, как гуманитарии используют, интерпретируют и критикуют эти методы. Отличается от обработки естественного языка как инженерной области; акцент здесь делается на гуманитарной интерпретации.

Core questions

  • Что представляют собой кластеры, создаваемые тематическими моделями, и действительно ли они являются темами?
  • Как следует выбирать количество тем и параметры модели?
  • Как можно валидировать и ответственно интерпретировать результаты тематического моделирования?
  • Что позволяют утверждать закономерности интеллектуального анализа текста о корпусе?

Key concepts

  • Латентное размещение Дирихле
  • Латентная тема
  • Документно-тематическое распределение
  • Обучение без учителя
  • Интерпретация модели

Key theories

Латентное размещение Дирихле
Блей, Нг и Джордан представили LDA — генеративную вероятностную модель, которая представляет документы как смеси латентных тем, каждая из которых является распределением слов.
Вероятностные тематические модели как средство исследования
Блей рассматривал тематические модели как инструменты для исследования и организации больших архивов, выявляющие тематическую структуру без предварительной разметки.
Темы как интерпретационные конструкты
Гуманитарии, такие как Джокерс, применяли тематическое моделирование к литературным корпусам, в то время как критики, такие как Шмидт, предостерегали, что темы являются статистическими артефактами, требующими тщательной, скептической интерпретации.

History

LDA была представлена в 2003 году и быстро получила распространение в науках. Примерно в 2010 году гуманитарии начали применять тематическое моделирование к литературным и историческим корпусам; «Макроанализ» Джокерса (2013) является ярким примером, в то время как критика Шмидта 2012 года и другие работы подняли вопрос о том, как ответственно интерпретировать результаты модели.

Debates

Являются ли темы осмысленными или артефактами?
Вопрос о том, соответствуют ли кластеры слов, создаваемые тематическими моделями, интерпретируемым темам или являются статистическими артефактами, формируемыми выбором параметров и предварительной обработкой.

Key figures

  • David Blei
  • Matthew L. Jockers
  • Benjamin Schmidt

Related topics

Seminal works

  • blei2003
  • blei2012
  • jockers2013
  • schmidt2012

Frequently asked questions

Говорит ли мне тематическая модель, о чем корпус?
Сама по себе нет. Она создает кластеры совместно встречающихся слов, которые могут соответствовать темам, но чувствительны к предварительной обработке и выбранному количеству тем. Результат является отправной точкой для интерпретации, а не объективным резюме, и должен быть проверен на соответствие текстам.

Methods for this concept

Related concepts