ScholarGate
Asisten

Klasifikasi Teks

Klasifikasi teks secara otomatis menetapkan dokumen ke satu atau lebih kategori yang telah ditentukan menggunakan model yang dipelajari dari contoh berlabel.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Klasifikasi teks adalah tugas menetapkan dokumen ke satu atau lebih kategori dari kumpulan yang telah ditentukan, yang dilakukan oleh model yang dilatih pada dokumen yang label kategorinya diketahui, menggunakan representasi berbasis istilah dokumen sebagai fitur masukan.

Scope

Topik ini mencakup kategorisasi teks tersupervisi: formulasi masalah sebagai klasifikasi label tunggal, multi-label, atau hierarkis; pembelajaran representatif yang diterapkan pada teks seperti naive Bayes, metode centroid Rocchio, k-nearest-neighbors, dan support vector machines; pemilihan fitur untuk teks berdimensi tinggi; dan evaluasi pengklasifikasi. Ini memperlakukan klasifikasi seperti yang digunakan dalam konteks pengambilan informasi seperti pemfilteran dan perutean, mengacu pada pembelajaran mesin tetapi berfokus pada pertimbangan spesifik teks daripada teori pengklasifikasi umum.

Core questions

  • Bagaimana kategorisasi teks dirumuskan sebagai klasifikasi label tunggal, multi-label, atau hierarkis?
  • Algoritma pembelajaran mana yang bekerja dengan baik pada fitur teks berdimensi tinggi dan jarang?
  • Bagaimana fitur informatif dipilih dari kosakata yang besar?
  • Mengapa support vector machines sangat cocok untuk teks?
  • Bagaimana pengklasifikasi teks dievaluasi, dan bagaimana ketidakseimbangan kelas ditangani?

Key concepts

  • kategorisasi tersupervisi
  • klasifikasi label tunggal vs. multi-label
  • naive Bayes
  • klasifikasi Rocchio / centroid
  • k-nearest-neighbors
  • support vector machines
  • pemilihan fitur
  • evaluasi pengklasifikasi (presisi, recall, F1)

Key theories

Klasifikasi teks Naive Bayes
Pemodelan istilah setiap dokumen sebagai independen bersyarat berdasarkan kelas menghasilkan pengklasifikasi probabilistik yang sederhana dan cepat yang, meskipun asumsi independensinya kuat, berkinerja kompetitif pada banyak tugas teks.
Support vector machines untuk teks
Karena teks memiliki banyak fitur jarang yang sebagian besar relevan dan kelas seringkali dapat dipisahkan secara linier dalam ruang ini, support vector machines margin besar mencapai akurasi kategorisasi teks yang kuat dengan sedikit rekayasa fitur.

Clinical relevance

Klasifikasi teks mendukung pemfilteran spam email, moderasi konten, perutean dan penandaan topik, analisis sentimen, dan kategorisasi yang mendukung pencarian dan pemfilteran berfaset. Dalam pengambilan informasi, ini mendasari sistem pemfilteran dan perutean dokumen yang mengirimkan dokumen yang sesuai dengan kebutuhan informasi yang ada.

History

Kategorisasi teks otomatis dimulai dengan sistem aturan yang dibuat secara manual dan beralih ke pembelajaran mesin pada tahun 1990-an. Demonstrasi Joachims pada tahun 1998 bahwa support vector machines unggul pada teks, dan survei Sebastiani pada tahun 2002, menetapkan paradigma tersupervisi modern. Tugas yang sama sekarang berfungsi sebagai tolok ukur standar untuk pembelajaran representasi dan model teks saraf.

Key figures

  • Fabrizio Sebastiani
  • Thorsten Joachims
  • Yiming Yang

Related topics

Seminal works

  • sebastiani2002
  • joachims1998
  • manning2008

Frequently asked questions

Mengapa naive Bayes bekerja dengan baik meskipun asumsi independensinya tidak realistis?
Meskipun istilah-istilah tidak sepenuhnya independen, keputusan naive Bayes seringkali mengarah pada kelas yang benar karena asumsi tersebut terutama mendistorsi estimasi probabilitas daripada urutan relatif kelas. Ini juga cepat dan kuat dengan data terbatas, menjadikannya dasar yang kuat.
Apa perbedaan antara klasifikasi label tunggal dan multi-label?
Klasifikasi label tunggal menetapkan setiap dokumen ke tepat satu kategori, sedangkan klasifikasi multi-label memungkinkan dokumen untuk termasuk dalam beberapa kategori sekaligus, seperti ketika sebuah artikel ditandai dengan beberapa topik. Tugas multi-label membutuhkan metode dan metrik yang menangani label yang tumpang tindih.

Methods for this concept

Related concepts