ScholarGate
Asisten

Pemodelan Topik dan Penambangan Teks

Pemodelan topik membaca korpus seperti seorang pembaca cepat, mengurutkan kata-katanya ke dalam klaster-klaster berulang dari istilah-istilah yang sering muncul bersamaan yang sering terlihat seperti tema. Metode ini dan metode penambangan teks terkait memungkinkan para sarjana mensurvei koleksi besar, tetapi pola yang mereka munculkan harus diinterpretasikan dengan hati-hati.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Penggunaan metode statistik tanpa pengawasan — terutama model topik probabilistik — dan teknik penambangan teks terkait untuk menemukan struktur tematik dan leksikal laten di seluruh korpora humaniora yang besar.

Scope

Mencakup metode tanpa pengawasan untuk menemukan struktur dalam koleksi teks besar, terutama model topik probabilistik seperti Latent Dirichlet Allocation, dan teknik penambangan teks yang lebih luas untuk mengekstraksi pola dan tren. Termasuk bagaimana humanis menggunakan, menafsirkan, dan mengkritik metode ini. Berbeda dari pemrosesan bahasa alami sebagai bidang teknik; penekanannya di sini adalah interpretasi humanistik.

Core questions

  • Apa klaster yang dihasilkan oleh model topik, dan apakah itu benar-benar tema?
  • Bagaimana seharusnya jumlah topik dan parameter model dipilih?
  • Bagaimana keluaran model topik dapat divalidasi dan diinterpretasikan secara bertanggung jawab?
  • Apa yang diizinkan oleh pola penambangan teks untuk diklaim tentang suatu korpus?

Key concepts

  • Latent Dirichlet Allocation
  • Topik laten
  • Distribusi dokumen-topik
  • Pembelajaran tanpa pengawasan
  • Interpretasi model

Key theories

Latent Dirichlet Allocation
Blei, Ng, dan Jordan memperkenalkan LDA, sebuah model probabilistik generatif yang merepresentasikan dokumen sebagai campuran topik laten, masing-masing merupakan distribusi atas kata-kata.
Model topik probabilistik sebagai eksplorasi
Blei membingkai model topik sebagai alat untuk menjelajahi dan mengorganisir arsip besar, memunculkan struktur tematik tanpa pengawasan.
Topik sebagai konstruk interpretatif
Humanis seperti Jockers menerapkan pemodelan topik pada korpora sastra, sementara kritikus seperti Schmidt memperingatkan bahwa topik adalah artefak statistik yang membutuhkan interpretasi yang hati-hati dan skeptis.

History

LDA diperkenalkan pada tahun 2003 dan dengan cepat diadopsi di seluruh ilmu pengetahuan. Sekitar tahun 2010, humanis mulai menerapkan pemodelan topik pada korpora sastra dan sejarah; Macroanalysis (2013) karya Jockers adalah contoh yang menonjol, sementara kritik Schmidt tahun 2012 dan karya lainnya menekan pertanyaan tentang bagaimana menafsirkan keluaran model secara bertanggung jawab.

Debates

Apakah topik bermakna atau artefak?
Apakah klaster kata yang dihasilkan oleh model topik sesuai dengan tema yang dapat diinterpretasikan atau merupakan artefak statistik yang dibentuk oleh pilihan parameter dan pra-pemrosesan.

Key figures

  • David Blei
  • Matthew L. Jockers
  • Benjamin Schmidt

Related topics

Seminal works

  • blei2003
  • blei2012
  • jockers2013
  • schmidt2012

Frequently asked questions

Apakah model topik memberi tahu saya tentang apa suatu korpus?
Tidak dengan sendirinya. Ini menghasilkan klaster kata-kata yang sering muncul bersamaan yang mungkin sesuai dengan tema tetapi sensitif terhadap pra-pemrosesan dan jumlah topik yang dipilih. Keluaran adalah titik awal untuk interpretasi, bukan ringkasan objektif, dan harus divalidasi terhadap teks.

Methods for this concept

Related concepts