Model Semantik dan Topik Laten
Model semantik dan topik laten merepresentasikan dokumen berdasarkan tema tersembunyi daripada kata-kata permukaan, menangkap hubungan semantik dan memudahkan ketidakcocokan kosakata antara kueri dan dokumen.
Definition
Model semantik dan topik laten adalah metode reduksi dimensi dan generatif yang merepresentasikan dokumen sebagai kombinasi dari sejumlah kecil dimensi atau topik laten, yang diturunkan dari struktur kemunculan bersama dalam matriks istilah-dokumen, sehingga istilah dan dokumen yang berhubungan secara semantik terletak berdekatan.
Scope
Topik ini mencakup metode yang mengungkap struktur laten dalam teks: analisis semantik laten (juga disebut pengindeksan semantik laten) melalui dekomposisi nilai singular terpotong dari matriks istilah-dokumen, pengindeksan semantik laten probabilistik, serta alokasi Dirichlet laten dan model topik probabilistik terkait. Ini membahas bagaimana proyeksi ini menangkap sinonimitas dan kemiripan semantik, bagaimana topik diinterpretasikan, dan bagaimana representasi mendukung pengambilan dan penjelajahan. Ini tidak termasuk metode faktorisasi matriks umum dan penyematan saraf di luar penggunaannya sebagai representasi teks semantik.
Core questions
- Bagaimana dekomposisi nilai singular terpotong menghasilkan ruang semantik laten?
- Bagaimana representasi laten mengatasi sinonimitas dan ketidakcocokan kosakata?
- Bagaimana model topik probabilistik seperti LDA menghasilkan dokumen dari topik?
- Bagaimana topik yang dihasilkan diinterpretasikan dan diberi label?
- Bagaimana representasi laten meningkatkan pengambilan, penjelajahan, dan kemiripan?
Key concepts
- analisis/pengindeksan semantik laten
- matriks istilah-dokumen
- dekomposisi nilai singular terpotong
- reduksi dimensi
- sinonimitas dan polisemi
- pengindeksan semantik laten probabilistik
- alokasi Dirichlet laten
- distribusi topik-kata dan dokumen-topik
Key theories
- Analisis semantik laten
- Menerapkan dekomposisi nilai singular terpotong pada matriks istilah-dokumen memproyeksikan dokumen dan istilah ke dalam ruang laten berdimensi rendah di mana item-item yang berhubungan secara semantik berdekatan, mengurangi sinonimitas dan menangkap kemunculan bersama tingkat tinggi.
- Model topik probabilistik
- Pengindeksan semantik laten probabilistik dan alokasi Dirichlet laten memodelkan setiap dokumen sebagai campuran topik laten, yang masing-masing merupakan distribusi atas kata-kata, menyediakan penjelasan generatif dan dapat diinterpretasikan tentang konten dokumen.
Clinical relevance
Model laten dan topik mendukung pencarian semantik, kemiripan dokumen, rekomendasi, dan eksplorasi korpus berdasarkan tema, membantu mencocokkan konsep daripada kata-kata yang persis sama. Model ini adalah pendahulu konseptual dari penyematan saraf padat (dense neural embeddings), yang kini menyediakan representasi semantik yang dipelajari untuk pengambilan dalam skala besar.
History
Analisis semantik laten diperkenalkan pada tahun 1990 untuk mengatasi ketidakcocokan kosakata melalui dekomposisi matriks. Pengindeksan semantik laten probabilistik Hofmann pada tahun 1999 memberikan reformulasi generatif, dan alokasi Dirichlet laten oleh Blei, Ng, dan Jordan pada tahun 2003 menetapkan pemodelan topik Bayesian, yang menjadi alat utama untuk menganalisis korpus teks besar.
Key figures
- Susan Dumais
- Thomas Landauer
- Thomas Hofmann
- David Blei
Related topics
Seminal works
- deerwester1990
- hofmann1999
- blei2003
Frequently asked questions
- Bagaimana model semantik laten membantu mengatasi ketidakcocokan kosakata?
- Dengan memproyeksikan dokumen dan istilah ke dalam ruang laten bersama berdasarkan kemunculan bersama, model ini menempatkan sinonim dan istilah terkait berdekatan. Kueri dan dokumen yang relevan kemudian dapat cocok melalui dimensi laten bersama meskipun mereka menggunakan kata-kata yang berbeda untuk konsep yang sama.
- Apa yang sebenarnya dihasilkan oleh alokasi Dirichlet laten?
- LDA mempelajari sekumpulan topik, yang masing-masing merupakan distribusi atas kata-kata, dan merepresentasikan setiap dokumen sebagai campuran dari topik-topik tersebut. Ini memberikan tema yang dapat diinterpretasikan dan representasi dokumen yang ringkas yang berguna untuk mengatur, mencari, dan menganalisis koleksi besar.