Apa itu model bag-of-words?

Model bag-of-words merepresentasikan dokumen sebagai himpunan atau multiset istilah yang dikandungnya, mengabaikan urutan kata dan tata bahasa. Meskipun mengabaikan informasi urutan, model ini sederhana, efisien, dan sangat efektif untuk pengambilan, klasifikasi, dan pengelompokan.

Mengapa menerapkan logaritma pada frekuensi istilah?

Istilah yang muncul sepuluh kali tidak sepuluh kali lebih penting daripada yang muncul sekali. Mengambil logaritma dari frekuensi istilah melemahkan efek ini, sehingga kemunculan tambahan secara progresif menambah bobot yang lebih kecil, yang lebih baik mencerminkan bagaimana pengulangan berkaitan dengan relevansi.

Representasi dan Pembobotan Dokumen

Representasi dokumen mengubah teks mentah menjadi serangkaian fitur berbobot yang terstruktur, menentukan apa yang dianggap sebagai istilah dan seberapa besar kontribusi setiap istilah.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Representasi dan pembobotan dokumen adalah proses mengubah teks dokumen mentah menjadi vektor fitur, biasanya istilah, dengan melakukan tokenisasi dan normalisasi teks serta menetapkan bobot pada setiap fitur yang mencerminkan kepentingannya dalam dokumen dan di seluruh koleksi.

Scope

Topik ini mencakup langkah-langkah yang mengubah dokumen menjadi representasi yang dapat dicari: tokenisasi, normalisasi, penanganan kata henti (stop-word), stemming dan lemmatisasi, serta konstruksi vektor fitur bag-of-words atau n-gram, bersama dengan skema pembobotan istilah seperti frekuensi istilah mentah dan logaritmik, frekuensi dokumen invers, dan tf-idf dengan normalisasi panjang. Ini membahas pilihan-pilihan yang membentuk representasi yang digunakan untuk pengambilan, klasifikasi, dan pengelompokan, sementara model peringkat dan representasi laten diserahkan ke topik-topik terkait.

Core questions

Bagaimana teks mentah ditokenisasi dan dinormalisasi menjadi istilah?
Apa efek dari penghapusan kata henti (stop-word), stemming, dan lemmatisasi?
Mengapa frekuensi istilah saja merupakan bobot yang buruk, dan bagaimana cara mengubahnya?
Bagaimana frekuensi dokumen invers menangkap kepentingan istilah di seluruh koleksi?
Bagaimana normalisasi panjang menjaga dokumen panjang dan pendek tetap sebanding?

Key concepts

tokenisasi dan normalisasi
kata henti (stop words)
stemming dan lemmatisasi
bag-of-words dan n-gram
frekuensi istilah (mentah dan log)
frekuensi dokumen invers
varian tf-idf
normalisasi panjang

Key theories

Representasi Bag-of-words: Memperlakukan dokumen sebagai multiset istilah yang tidak berurutan, mengabaikan urutan kata, menghasilkan vektor fitur yang sederhana dan efektif yang mendasari pengambilan, klasifikasi, dan pengelompokan klasik meskipun sintaksis diabaikan.
Skema pembobotan tf-idf: Menggabungkan komponen frekuensi istilah (sering dilemahkan) dengan frekuensi dokumen invers dan normalisasi panjang menghasilkan bobot yang menekankan istilah yang sering muncul dalam dokumen tetapi jarang dalam koleksi, dengan banyak varian yang didokumentasikan.

Clinical relevance

Pilihan representasi dan pembobotan secara langsung memengaruhi kualitas setiap tugas selanjutnya, mulai dari peringkat pencarian hingga penyaringan spam dan pengelompokan. Representasi tf-idf tetap menjadi dasar yang kuat dan dapat diinterpretasikan, dan pertanyaan desain yang sama mengenai tokenisasi dan normalisasi tetap ada dalam alur kerja modern yang menggunakan embedding yang dipelajari.

History

Representasi dokumen berkembang seiring dengan model ruang vektor pada tahun 1960-an dan 1970-an, dengan Spärck Jones memperkenalkan frekuensi dokumen invers pada tahun 1972 dan Salton serta Buckley mensistematisasi varian pembobotan istilah pada tahun 1988. Representasi bag-of-words dan tf-idf menjadi substrat standar untuk pemrosesan teks di seluruh IR dan pembelajaran mesin selama beberapa dekade.

Key figures

Gerard Salton
Chris Buckley
Karen Spärck Jones

Seminal works

salton1988
sparckjones1972
manning2008

Frequently asked questions

Apa itu model bag-of-words?: Model bag-of-words merepresentasikan dokumen sebagai himpunan atau multiset istilah yang dikandungnya, mengabaikan urutan kata dan tata bahasa. Meskipun mengabaikan informasi urutan, model ini sederhana, efisien, dan sangat efektif untuk pengambilan, klasifikasi, dan pengelompokan.
Mengapa menerapkan logaritma pada frekuensi istilah?: Istilah yang muncul sepuluh kali tidak sepuluh kali lebih penting daripada yang muncul sekali. Mengambil logaritma dari frekuensi istilah melemahkan efek ini, sehingga kemunculan tambahan secara progresif menambah bobot yang lebih kecil, yang lebih baik mencerminkan bagaimana pengulangan berkaitan dengan relevansi.