Representasi dan Klasifikasi Teks
Representasi dan klasifikasi teks mencakup bagaimana dokumen diubah menjadi fitur dan bagaimana representasi tersebut mendukung pengorganisasian koleksi berdasarkan kategori, kesamaan, dan topik laten.
Definition
Representasi dan klasifikasi teks adalah kumpulan metode untuk mengubah dokumen menjadi representasi fitur dan untuk menetapkan, mengelompokkan, atau memproyeksikan representasi tersebut, termasuk kategorisasi dengan pengawasan ke dalam kelas yang diketahui, pengelompokan tanpa pengawasan, dan pemodelan topik atau semantik laten, untuk tujuan pengambilan informasi dan pengorganisasian koleksi.
Scope
Area ini mencakup representasi teks untuk pengambilan informasi serta pengorganisasian koleksi dokumen secara tanpa pengawasan (unsupervised) dan dengan pengawasan (supervised): representasi dokumen dan pembobotan istilah, klasifikasi teks otomatis ke dalam kategori yang telah ditentukan, pengelompokan teks (text clustering) ke dalam kelompok yang ditemukan, serta model semantik laten dan topik yang mengungkap struktur tersembunyi. Ini memperlakukan representasi dan pengorganisasian karena mendukung pengambilan informasi, memanfaatkan pembelajaran mesin sambil berfokus pada penggunaan metode ini yang berorientasi pada pengambilan informasi daripada teori pembelajaran mesin tujuan umum.
Sub-topics
Core questions
- Bagaimana dokumen diubah menjadi fitur, dan bagaimana istilah diberi bobot?
- Bagaimana dokumen dapat secara otomatis diurutkan ke dalam kategori yang telah ditentukan?
- Bagaimana koleksi dapat dikelompokkan ke dalam klaster tanpa label yang telah ditentukan?
- Bagaimana model topik laten dan semantik mengungkapkan struktur tersembunyi dalam teks?
- Bagaimana representasi ini meningkatkan pengambilan informasi, penelusuran, dan penyaringan?
Key concepts
- representasi dokumen
- pembobotan istilah (tf-idf)
- klasifikasi teks / kategorisasi
- pengelompokan teks (text clustering)
- analisis semantik laten
- model topik
- pemilihan fitur
- ketidaksesuaian kosakata (vocabulary mismatch)
Key theories
- Representasi vektor dan pembobotan istilah
- Merepresentasikan dokumen sebagai vektor fitur berbobot, biasanya berdasarkan istilah dengan bobot gaya tf-idf, menyediakan substrat umum tempat klasifikasi, pengelompokan, dan perhitungan kesamaan beroperasi.
- Kategorisasi teks dengan pengawasan
- Dengan contoh berlabel, pengklasifikasi pembelajaran mesin dapat menetapkan dokumen ke kategori yang telah ditentukan, dengan pilihan fitur dan pembelajar menentukan akurasi, sebagaimana disistematisasi dalam literatur kategorisasi teks.
- Struktur semantik dan topik laten
- Metode seperti analisis semantik laten dan alokasi Dirichlet laten memproyeksikan dokumen ke dalam ruang berdimensi lebih rendah atau distribusi topik, menangkap hubungan semantik dan mengurangi ketidaksesuaian kosakata.
Clinical relevance
Metode-metode ini mendukung penyaringan spam, perutean dan penyaringan berbasis topik, penelusuran berfaset, deduplikasi, dan pengorganisasian hasil pencarian, serta model topik dan semantik mendukung pencarian eksplorasi dan rekomendasi. Representasi dokumen juga mendasari pergeseran dari vektor istilah jarang ke embedding padat yang dipelajari dalam pengambilan informasi modern.
History
Kategorisasi teks berkembang dari sistem berbasis aturan pada tahun 1980-an menjadi disiplin pembelajaran mesin sepanjang tahun 1990-an, dikonsolidasikan dalam survei Sebastiani tahun 2002. Analisis semantik laten (1990) memperkenalkan reduksi dimensi untuk pengambilan informasi, dan alokasi Dirichlet laten (2003) menetapkan pemodelan topik probabilistik, keduanya membentuk bagaimana struktur semantik dalam teks direpresentasikan.
Key figures
- Fabrizio Sebastiani
- Susan Dumais
- David Blei
- Christopher Manning
Related topics
Seminal works
- manning2008
- sebastiani2002
- deerwester1990
- blei2003
Frequently asked questions
- Apa perbedaan antara klasifikasi teks dan pengelompokan teks?
- Klasifikasi bersifat dengan pengawasan: ia menetapkan dokumen ke kategori yang telah ditentukan menggunakan contoh pelatihan berlabel. Pengelompokan bersifat tanpa pengawasan: ia mengelompokkan dokumen berdasarkan kesamaan tanpa kategori yang telah ditentukan, menemukan struktur daripada menyesuaikannya dengan label yang diketahui.
- Mengapa model topik laten berguna untuk pengambilan informasi?
- Model topik dan semantik laten merepresentasikan dokumen berdasarkan tema yang mendasarinya daripada kata-kata yang tepat, yang membantu mencocokkan kueri dan dokumen yang menggunakan kosakata berbeda untuk konsep yang sama dan mendukung penelusuran koleksi berdasarkan topik.