Тематическое моделирование и интеллектуальный анализ текста
Тематическое моделирование просматривает корпус подобно тому, как это делает человек, быстро пробегающий текст, сортируя слова по повторяющимся кластерам совместно встречающихся терминов, которые часто выглядят как темы. Этот метод и связанные с ним методы интеллектуального анализа текста позволяют исследователям изучать огромные коллекции, но выявленные ими закономерности должны интерпретироваться с осторожностью.
Definition
Использование статистических методов без учителя — в частности, вероятностных тематических моделей — и связанных с ними методов интеллектуального анализа текста для обнаружения скрытой тематической и лексической структуры в больших гуманитарных корпусах.
Scope
Охватывает методы обучения без учителя для обнаружения структуры в больших текстовых коллекциях, особенно вероятностные тематические модели, такие как латентное размещение Дирихле (Latent Dirichlet Allocation), и более широкие методы интеллектуального анализа текста для извлечения закономерностей и тенденций. Включает в себя то, как гуманитарии используют, интерпретируют и критикуют эти методы. Отличается от обработки естественного языка как инженерной области; акцент здесь делается на гуманитарной интерпретации.
Core questions
- Что представляют собой кластеры, создаваемые тематическими моделями, и действительно ли они являются темами?
- Как следует выбирать количество тем и параметры модели?
- Как можно валидировать и ответственно интерпретировать результаты тематического моделирования?
- Что позволяют утверждать закономерности интеллектуального анализа текста о корпусе?
Key concepts
- Латентное размещение Дирихле
- Латентная тема
- Документно-тематическое распределение
- Обучение без учителя
- Интерпретация модели
Key theories
- Латентное размещение Дирихле
- Блей, Нг и Джордан представили LDA — генеративную вероятностную модель, которая представляет документы как смеси латентных тем, каждая из которых является распределением слов.
- Вероятностные тематические модели как средство исследования
- Блей рассматривал тематические модели как инструменты для исследования и организации больших архивов, выявляющие тематическую структуру без предварительной разметки.
- Темы как интерпретационные конструкты
- Гуманитарии, такие как Джокерс, применяли тематическое моделирование к литературным корпусам, в то время как критики, такие как Шмидт, предостерегали, что темы являются статистическими артефактами, требующими тщательной, скептической интерпретации.
History
LDA была представлена в 2003 году и быстро получила распространение в науках. Примерно в 2010 году гуманитарии начали применять тематическое моделирование к литературным и историческим корпусам; «Макроанализ» Джокерса (2013) является ярким примером, в то время как критика Шмидта 2012 года и другие работы подняли вопрос о том, как ответственно интерпретировать результаты модели.
Debates
- Являются ли темы осмысленными или артефактами?
- Вопрос о том, соответствуют ли кластеры слов, создаваемые тематическими моделями, интерпретируемым темам или являются статистическими артефактами, формируемыми выбором параметров и предварительной обработкой.
Key figures
- David Blei
- Matthew L. Jockers
- Benjamin Schmidt
Related topics
Seminal works
- blei2003
- blei2012
- jockers2013
- schmidt2012
Frequently asked questions
- Говорит ли мне тематическая модель, о чем корпус?
- Сама по себе нет. Она создает кластеры совместно встречающихся слов, которые могут соответствовать темам, но чувствительны к предварительной обработке и выбранному количеству тем. Результат является отправной точкой для интерпретации, а не объективным резюме, и должен быть проверен на соответствие текстам.