Pemodelan Topik dan Penambangan Teks
Pemodelan topik membaca korpus seperti seorang pembaca cepat, mengurutkan kata-katanya ke dalam klaster-klaster berulang dari istilah-istilah yang sering muncul bersamaan yang sering terlihat seperti tema. Metode ini dan metode penambangan teks terkait memungkinkan para sarjana mensurvei koleksi besar, tetapi pola yang mereka munculkan harus diinterpretasikan dengan hati-hati.
Definition
Penggunaan metode statistik tanpa pengawasan — terutama model topik probabilistik — dan teknik penambangan teks terkait untuk menemukan struktur tematik dan leksikal laten di seluruh korpora humaniora yang besar.
Scope
Mencakup metode tanpa pengawasan untuk menemukan struktur dalam koleksi teks besar, terutama model topik probabilistik seperti Latent Dirichlet Allocation, dan teknik penambangan teks yang lebih luas untuk mengekstraksi pola dan tren. Termasuk bagaimana humanis menggunakan, menafsirkan, dan mengkritik metode ini. Berbeda dari pemrosesan bahasa alami sebagai bidang teknik; penekanannya di sini adalah interpretasi humanistik.
Core questions
- Apa klaster yang dihasilkan oleh model topik, dan apakah itu benar-benar tema?
- Bagaimana seharusnya jumlah topik dan parameter model dipilih?
- Bagaimana keluaran model topik dapat divalidasi dan diinterpretasikan secara bertanggung jawab?
- Apa yang diizinkan oleh pola penambangan teks untuk diklaim tentang suatu korpus?
Key concepts
- Latent Dirichlet Allocation
- Topik laten
- Distribusi dokumen-topik
- Pembelajaran tanpa pengawasan
- Interpretasi model
Key theories
- Latent Dirichlet Allocation
- Blei, Ng, dan Jordan memperkenalkan LDA, sebuah model probabilistik generatif yang merepresentasikan dokumen sebagai campuran topik laten, masing-masing merupakan distribusi atas kata-kata.
- Model topik probabilistik sebagai eksplorasi
- Blei membingkai model topik sebagai alat untuk menjelajahi dan mengorganisir arsip besar, memunculkan struktur tematik tanpa pengawasan.
- Topik sebagai konstruk interpretatif
- Humanis seperti Jockers menerapkan pemodelan topik pada korpora sastra, sementara kritikus seperti Schmidt memperingatkan bahwa topik adalah artefak statistik yang membutuhkan interpretasi yang hati-hati dan skeptis.
History
LDA diperkenalkan pada tahun 2003 dan dengan cepat diadopsi di seluruh ilmu pengetahuan. Sekitar tahun 2010, humanis mulai menerapkan pemodelan topik pada korpora sastra dan sejarah; Macroanalysis (2013) karya Jockers adalah contoh yang menonjol, sementara kritik Schmidt tahun 2012 dan karya lainnya menekan pertanyaan tentang bagaimana menafsirkan keluaran model secara bertanggung jawab.
Debates
- Apakah topik bermakna atau artefak?
- Apakah klaster kata yang dihasilkan oleh model topik sesuai dengan tema yang dapat diinterpretasikan atau merupakan artefak statistik yang dibentuk oleh pilihan parameter dan pra-pemrosesan.
Key figures
- David Blei
- Matthew L. Jockers
- Benjamin Schmidt
Related topics
Seminal works
- blei2003
- blei2012
- jockers2013
- schmidt2012
Frequently asked questions
- Apakah model topik memberi tahu saya tentang apa suatu korpus?
- Tidak dengan sendirinya. Ini menghasilkan klaster kata-kata yang sering muncul bersamaan yang mungkin sesuai dengan tema tetapi sensitif terhadap pra-pemrosesan dan jumlah topik yang dipilih. Keluaran adalah titik awal untuk interpretasi, bukan ringkasan objektif, dan harus divalidasi terhadap teks.