ScholarGate
어시스턴트

토픽 모델링 및 텍스트 마이닝

토픽 모델링은 빠른 훑어보기처럼 코퍼스를 읽고, 단어들을 반복적으로 나타나는 공동 발생 용어 클러스터로 분류하며, 이는 종종 주제처럼 보입니다. 이 방법과 관련 텍스트 마이닝 기법은 학자들이 방대한 자료를 조사할 수 있게 하지만, 표면화된 패턴은 신중하게 해석되어야 합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

대규모 인문학 코퍼스 전반에 걸쳐 잠재된 주제적 및 어휘적 구조를 발견하기 위해 비지도 통계 방법(특히 확률적 토픽 모델)과 관련 텍스트 마이닝 기법을 사용하는 것입니다.

Scope

대규모 텍스트 컬렉션에서 구조를 발견하기 위한 비지도 학습 방법, 특히 잠재 디리클레 할당(Latent Dirichlet Allocation)과 같은 확률적 토픽 모델, 그리고 패턴과 추세를 추출하기 위한 광범위한 텍스트 마이닝 기법을 다룹니다. 인문학자들이 이러한 방법을 어떻게 사용하고, 해석하며, 비판하는지에 대한 내용도 포함됩니다. 공학 분야로서의 자연어 처리와는 구별되며, 여기서는 인문학적 해석에 중점을 둡니다.

Core questions

  • 토픽 모델이 생성하는 클러스터는 무엇이며, 그것들은 정말 주제인가요?
  • 토픽 수와 모델 매개변수는 어떻게 선택해야 하나요?
  • 토픽 모델 출력은 어떻게 검증하고 책임감 있게 해석할 수 있나요?
  • 텍스트 마이닝 패턴은 코퍼스에 대해 어떤 주장을 할 수 있도록 허용하나요?

Key concepts

  • 잠재 디리클레 할당
  • 잠재 토픽
  • 문서-토픽 분포
  • 비지도 학습
  • 모델 해석

Key theories

잠재 디리클레 할당
Blei, Ng, Jordan은 문서들을 잠재 토픽들의 혼합으로 표현하는 생성적 확률 모델인 LDA를 소개했으며, 각 토픽은 단어들에 대한 분포입니다.
탐색으로서의 확률적 토픽 모델
Blei는 토픽 모델을 대규모 아카이브를 탐색하고 조직하며, 비지도 방식으로 주제적 구조를 표면화하는 도구로 보았습니다.
해석적 구성물로서의 토픽
Jockers와 같은 인문학자들은 토픽 모델링을 문학 코퍼스에 적용했으며, Schmidt와 같은 비평가들은 토픽이 신중하고 회의적인 해석을 요구하는 통계적 인공물임을 경고했습니다.

History

LDA는 2003년에 소개되어 과학 분야 전반에 걸쳐 빠르게 채택되었습니다. 2010년경부터 인문학자들은 토픽 모델링을 문학 및 역사 코퍼스에 적용하기 시작했으며, Jockers의 Macroanalysis (2013)가 대표적인 예입니다. 한편, Schmidt의 2012년 비판 및 기타 연구는 모델 출력물을 책임감 있게 해석하는 방법에 대한 질문을 제기했습니다.

Debates

토픽은 의미 있는가 아니면 인공물인가?
토픽 모델이 생성하는 단어 클러스터가 해석 가능한 주제에 해당하는지, 아니면 매개변수 선택과 전처리에 의해 형성된 통계적 인공물인지에 대한 논쟁입니다.

Key figures

  • David Blei
  • Matthew L. Jockers
  • Benjamin Schmidt

Related topics

Seminal works

  • blei2003
  • blei2012
  • jockers2013
  • schmidt2012

Frequently asked questions

토픽 모델이 코퍼스가 무엇에 관한 것인지 알려주나요?
그 자체로는 그렇지 않습니다. 토픽 모델은 주제에 해당할 수 있는 공동 발생 단어들의 클러스터를 생성하지만, 이는 전처리 및 선택된 토픽 수에 민감합니다. 출력물은 해석을 위한 출발점이지 객관적인 요약이 아니며, 텍스트와 비교하여 검증되어야 합니다.

Methods for this concept

Related concepts