Representasi dan Pembobotan Dokumen
Representasi dokumen mengubah teks mentah menjadi serangkaian fitur berbobot yang terstruktur, menentukan apa yang dianggap sebagai istilah dan seberapa besar kontribusi setiap istilah.
Definition
Representasi dan pembobotan dokumen adalah proses mengubah teks dokumen mentah menjadi vektor fitur, biasanya istilah, dengan melakukan tokenisasi dan normalisasi teks serta menetapkan bobot pada setiap fitur yang mencerminkan kepentingannya dalam dokumen dan di seluruh koleksi.
Scope
Topik ini mencakup langkah-langkah yang mengubah dokumen menjadi representasi yang dapat dicari: tokenisasi, normalisasi, penanganan kata henti (stop-word), stemming dan lemmatisasi, serta konstruksi vektor fitur bag-of-words atau n-gram, bersama dengan skema pembobotan istilah seperti frekuensi istilah mentah dan logaritmik, frekuensi dokumen invers, dan tf-idf dengan normalisasi panjang. Ini membahas pilihan-pilihan yang membentuk representasi yang digunakan untuk pengambilan, klasifikasi, dan pengelompokan, sementara model peringkat dan representasi laten diserahkan ke topik-topik terkait.
Core questions
- Bagaimana teks mentah ditokenisasi dan dinormalisasi menjadi istilah?
- Apa efek dari penghapusan kata henti (stop-word), stemming, dan lemmatisasi?
- Mengapa frekuensi istilah saja merupakan bobot yang buruk, dan bagaimana cara mengubahnya?
- Bagaimana frekuensi dokumen invers menangkap kepentingan istilah di seluruh koleksi?
- Bagaimana normalisasi panjang menjaga dokumen panjang dan pendek tetap sebanding?
Key concepts
- tokenisasi dan normalisasi
- kata henti (stop words)
- stemming dan lemmatisasi
- bag-of-words dan n-gram
- frekuensi istilah (mentah dan log)
- frekuensi dokumen invers
- varian tf-idf
- normalisasi panjang
Key theories
- Representasi Bag-of-words
- Memperlakukan dokumen sebagai multiset istilah yang tidak berurutan, mengabaikan urutan kata, menghasilkan vektor fitur yang sederhana dan efektif yang mendasari pengambilan, klasifikasi, dan pengelompokan klasik meskipun sintaksis diabaikan.
- Skema pembobotan tf-idf
- Menggabungkan komponen frekuensi istilah (sering dilemahkan) dengan frekuensi dokumen invers dan normalisasi panjang menghasilkan bobot yang menekankan istilah yang sering muncul dalam dokumen tetapi jarang dalam koleksi, dengan banyak varian yang didokumentasikan.
Clinical relevance
Pilihan representasi dan pembobotan secara langsung memengaruhi kualitas setiap tugas selanjutnya, mulai dari peringkat pencarian hingga penyaringan spam dan pengelompokan. Representasi tf-idf tetap menjadi dasar yang kuat dan dapat diinterpretasikan, dan pertanyaan desain yang sama mengenai tokenisasi dan normalisasi tetap ada dalam alur kerja modern yang menggunakan embedding yang dipelajari.
History
Representasi dokumen berkembang seiring dengan model ruang vektor pada tahun 1960-an dan 1970-an, dengan Spärck Jones memperkenalkan frekuensi dokumen invers pada tahun 1972 dan Salton serta Buckley mensistematisasi varian pembobotan istilah pada tahun 1988. Representasi bag-of-words dan tf-idf menjadi substrat standar untuk pemrosesan teks di seluruh IR dan pembelajaran mesin selama beberapa dekade.
Key figures
- Gerard Salton
- Chris Buckley
- Karen Spärck Jones
Related topics
Seminal works
- salton1988
- sparckjones1972
- manning2008
Frequently asked questions
- Apa itu model bag-of-words?
- Model bag-of-words merepresentasikan dokumen sebagai himpunan atau multiset istilah yang dikandungnya, mengabaikan urutan kata dan tata bahasa. Meskipun mengabaikan informasi urutan, model ini sederhana, efisien, dan sangat efektif untuk pengambilan, klasifikasi, dan pengelompokan.
- Mengapa menerapkan logaritma pada frekuensi istilah?
- Istilah yang muncul sepuluh kali tidak sepuluh kali lebih penting daripada yang muncul sekali. Mengambil logaritma dari frekuensi istilah melemahkan efek ini, sehingga kemunculan tambahan secara progresif menambah bobot yang lebih kecil, yang lebih baik mencerminkan bagaimana pengulangan berkaitan dengan relevansi.