Pengelompokan Teks
Pengelompokan teks mengelompokkan dokumen ke dalam klaster-klaster dengan konten serupa tanpa kategori yang telah ditentukan, mengungkapkan struktur dalam suatu koleksi dan mendukung penelusuran serta pengambilan informasi.
Definition
Pengelompokan teks adalah partisi tanpa pengawasan dari koleksi dokumen ke dalam kelompok-kelompok sedemikian rupa sehingga dokumen dalam satu kelompok lebih mirip satu sama lain daripada dokumen di kelompok lain, menggunakan ukuran kesamaan pada representasi dokumen dan tanpa label yang telah ditentukan sebelumnya.
Scope
Topik ini mencakup pengelompokan dokumen tanpa pengawasan: metode partisi datar seperti k-means pada vektor dokumen, pengelompokan aglomeratif hierarkis, ukuran kesamaan dan fungsi kriteria yang terlibat, serta evaluasi kualitas klaster baik secara internal maupun terhadap label eksternal. Ini juga mencakup motivasi khusus pengambilan informasi, terutama hipotesis klaster dan pengelompokan hasil pencarian. Ini memperlakukan pengelompokan sebagai layanan untuk pengambilan informasi, berbeda dari klasifikasi terawasi dan dari model topik laten.
Core questions
- Bagaimana kesamaan antar dokumen diukur untuk pengelompokan?
- Bagaimana metode datar seperti k-means berbeda dari pengelompokan aglomeratif hierarkis?
- Bagaimana jumlah klaster dipilih?
- Bagaimana kualitas klaster dievaluasi tanpa label kebenaran dasar?
- Apa implikasi hipotesis klaster untuk pengambilan informasi?
Key concepts
- pengelompokan tanpa pengawasan
- kesamaan dokumen (kosinus)
- pengelompokan k-means
- pengelompokan aglomeratif hierarkis
- fungsi kriteria
- hipotesis klaster
- evaluasi klaster internal dan eksternal
- pengelompokan hasil pencarian
Key theories
- Hipotesis klaster
- Dokumen yang relevan dengan kueri yang sama cenderung mirip satu sama lain, sehingga pengelompokan dapat mengelompokkan dokumen yang relevan bersama-sama, memotivasi pengambilan informasi berbasis klaster dan pengorganisasian hasil.
- Pengelompokan datar dan hierarkis
- Metode datar seperti k-means mempartisi dokumen ke dalam sejumlah klaster yang dipilih dengan mengoptimalkan fungsi kriteria, sementara metode aglomeratif hierarkis membangun pohon klaster bersarang, dengan pilihan kriteria sangat memengaruhi kualitas pengelompokan dokumen.
Clinical relevance
Pengelompokan mendukung penjelajahan dan pengorganisasian kumpulan dokumen yang besar: mengelompokkan hasil pencarian berdasarkan subtopik, menghilangkan duplikasi dan mengorganisir berita, menyusun perpustakaan digital, dan menyediakan gambaran umum untuk pencarian eksplorasi. Hipotesis klaster juga menginformasikan metode pengambilan informasi yang memanfaatkan kesamaan dokumen.
History
Pengelompokan diterapkan pada pengambilan informasi sejak awal, dengan van Rijsbergen mengartikulasikan hipotesis klaster pada tahun 1970-an sebagai dasar untuk pengambilan informasi berbasis klaster. Seiring bertambahnya koleksi, metode yang dapat diskalakan seperti k-means dan varian bisektif serta perbandingan kriteria pengelompokan yang cermat menjadi standar, dan pengelompokan hasil muncul sebagai cara untuk mengorganisir keluaran pencarian web.
Key figures
- C. J. van Rijsbergen
- George Karypis
- Christopher Manning
Related topics
Seminal works
- vanrijsbergen1979
- manning2008
- zhao2004
Frequently asked questions
- Apa itu hipotesis klaster?
- Hipotesis klaster menyatakan bahwa dokumen yang relevan dengan kebutuhan informasi yang sama cenderung mirip satu sama lain. Jika benar, pengelompokan dokumen serupa akan menyatukan dokumen yang relevan, yang dapat dimanfaatkan untuk meningkatkan atau mengorganisir hasil pengambilan informasi.
- Bagaimana Anda mengevaluasi pengelompokan ketika tidak ada label?
- Ukuran internal menilai kohesi dan pemisahan klaster langsung dari data, sementara ukuran eksternal membandingkan klaster dengan kategorisasi yang diketahui jika tersedia. Keduanya digunakan, karena pengelompokan tidak diawasi dan 'kebenaran' bergantung pada tujuan yang dimaksudkan.