Pengumpulan dan Penilaian Relevansi
Pengumpulan (pooling) adalah metode yang memungkinkan evaluasi IR berskala besar dengan hanya menilai dokumen-dokumen yang diberi peringkat tinggi oleh sistem yang berpartisipasi, bukan setiap dokumen dalam koleksi.
Definition
Pengumpulan (pooling) adalah strategi pengambilan sampel untuk penilaian relevansi di mana dokumen-dokumen berperingkat tertinggi dari serangkaian hasil pengambilan yang berkontribusi digabungkan, dengan duplikat dihapus, ke dalam sebuah kumpulan yang dinilai oleh penilai manusia, dengan dokumen di luar kumpulan secara konvensional diperlakukan sebagai tidak relevan.
Scope
Topik ini mencakup bagaimana penilaian relevansi dikumpulkan secara efisien untuk koleksi besar, terutama metode pengumpulan yang digunakan dalam TREC dan kampanye serupa, di mana dokumen-dokumen berperingkat teratas dari banyak sistem digabungkan ke dalam sebuah kumpulan yang dinilai oleh penilai. Ini membahas kedalaman kumpulan, perlakuan dokumen yang tidak dinilai sebagai tidak relevan, penggunaan kembali dan potensi bias dari koleksi yang dikumpulkan, serta upaya dan kesepakatan penilai. Ini tidak termasuk metrik yang dihitung sesudahnya dan definisi koleksi itu sendiri.
Core questions
- Bagaimana pengumpulan mengurangi jumlah dokumen yang harus dinilai?
- Bagaimana kedalaman kumpulan dipilih, dan bagaimana pengaruhnya terhadap cakupan dokumen yang relevan?
- Mengapa dokumen yang tidak dinilai biasanya diperlakukan sebagai tidak relevan, dan bias apa yang dapat ditimbulkan oleh hal tersebut?
- Seberapa dapat digunakan kembali koleksi yang dikumpulkan untuk sistem yang tidak berkontribusi pada kumpulan tersebut?
- Bagaimana upaya, kesepakatan, dan kualitas penilai dikelola?
Key concepts
- metode pengumpulan
- kedalaman kumpulan
- hasil yang berkontribusi
- asumsi tidak dinilai-sebagai-tidak-relevan
- bias kumpulan dan penggunaan kembali
- kesepakatan penilai
- informasi relevansi yang tidak lengkap
- penilaian relevansi crowdsourced
Key theories
- Pengumpulan untuk penilaian yang terukur
- Dengan hanya menilai gabungan dokumen-dokumen berperingkat teratas dari banyak sistem yang beragam, pengumpulan memungkinkan evaluasi koleksi besar secara praktis sambil tetap menemukan sebagian besar dokumen relevan yang akan dimunculkan oleh sistem yang wajar.
- Kekhawatiran keandalan dan penggunaan kembali
- Pengumpulan dapat kurang merepresentasikan dokumen relevan yang hanya ditemukan oleh sistem di masa depan, menimbulkan pertanyaan tentang bias dan penggunaan kembali yang memotivasi kumpulan yang lebih dalam, kontributor yang beragam, dan metrik yang kuat untuk penilaian yang tidak lengkap.
Clinical relevance
Pengumpulan adalah hal yang membuat koleksi uji bersama yang dapat digunakan kembali menjadi terjangkau, dan ini mendasari penilaian di balik puluhan tahun hasil tolok ukur. Memahami asumsinya penting saat menggunakan kembali koleksi lama untuk mengevaluasi metode baru, terutama sistem saraf yang mungkin memunculkan dokumen relevan yang tidak pernah dinilai oleh kumpulan asli.
History
Pengumpulan diadopsi oleh TREC sejak awal pada tahun 1992 untuk membuat penilaian koleksi besar menjadi dapat dikelola. Analisis Zobel tahun 1998 meneliti keandalan dan penggunaan kembali koleksi yang dikumpulkan, dan pekerjaan selanjutnya tentang penilaian yang tidak lengkap menghasilkan metrik dan strategi pengumpulan yang lebih dalam atau lebih cerdas untuk mengurangi bias seiring berkembangnya koleksi dan populasi sistem.
Key figures
- Ellen M. Voorhees
- Justin Zobel
- Chris Buckley
Related topics
Seminal works
- voorhees2005
- zobel1998
- buckley2004
Frequently asked questions
- Mengapa tidak menilai setiap dokumen dalam koleksi?
- Koleksi besar berisi jutaan dokumen, sehingga menilai semuanya untuk setiap topik tidak praktis. Pengumpulan hanya menilai dokumen-dokumen yang diberi peringkat tinggi oleh sistem yang berkontribusi, yang menangkap sebagian besar dokumen relevan sambil menjaga upaya penilaian tetap dapat dikelola.
- Apa risiko memperlakukan dokumen yang tidak dinilai sebagai tidak relevan?
- Sistem selanjutnya mungkin mengambil dokumen relevan yang tidak pernah ada dalam kumpulan dan oleh karena itu dihitung sebagai tidak relevan, secara tidak adil menurunkan skor terukurnya. Bias kumpulan ini adalah alasan mengapa kumpulan yang lebih dalam, lebih beragam, dan metrik yang kuat terhadap penilaian digunakan saat menggunakan kembali koleksi.