Apa risiko memperlakukan dokumen yang tidak dinilai sebagai tidak relevan?

Sistem selanjutnya mungkin mengambil dokumen relevan yang tidak pernah ada dalam kumpulan dan oleh karena itu dihitung sebagai tidak relevan, secara tidak adil menurunkan skor terukurnya. Bias kumpulan ini adalah alasan mengapa kumpulan yang lebih dalam, lebih beragam, dan metrik yang kuat terhadap penilaian digunakan saat menggunakan kembali koleksi.

Pengumpulan dan Penilaian Relevansi

Pengumpulan (pooling) adalah metode yang memungkinkan evaluasi IR berskala besar dengan hanya menilai dokumen-dokumen yang diberi peringkat tinggi oleh sistem yang berpartisipasi, bukan setiap dokumen dalam koleksi.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Pengumpulan (pooling) adalah strategi pengambilan sampel untuk penilaian relevansi di mana dokumen-dokumen berperingkat tertinggi dari serangkaian hasil pengambilan yang berkontribusi digabungkan, dengan duplikat dihapus, ke dalam sebuah kumpulan yang dinilai oleh penilai manusia, dengan dokumen di luar kumpulan secara konvensional diperlakukan sebagai tidak relevan.

Scope

Topik ini mencakup bagaimana penilaian relevansi dikumpulkan secara efisien untuk koleksi besar, terutama metode pengumpulan yang digunakan dalam TREC dan kampanye serupa, di mana dokumen-dokumen berperingkat teratas dari banyak sistem digabungkan ke dalam sebuah kumpulan yang dinilai oleh penilai. Ini membahas kedalaman kumpulan, perlakuan dokumen yang tidak dinilai sebagai tidak relevan, penggunaan kembali dan potensi bias dari koleksi yang dikumpulkan, serta upaya dan kesepakatan penilai. Ini tidak termasuk metrik yang dihitung sesudahnya dan definisi koleksi itu sendiri.

Core questions

Bagaimana pengumpulan mengurangi jumlah dokumen yang harus dinilai?
Bagaimana kedalaman kumpulan dipilih, dan bagaimana pengaruhnya terhadap cakupan dokumen yang relevan?
Mengapa dokumen yang tidak dinilai biasanya diperlakukan sebagai tidak relevan, dan bias apa yang dapat ditimbulkan oleh hal tersebut?
Seberapa dapat digunakan kembali koleksi yang dikumpulkan untuk sistem yang tidak berkontribusi pada kumpulan tersebut?
Bagaimana upaya, kesepakatan, dan kualitas penilai dikelola?

Key concepts

metode pengumpulan
kedalaman kumpulan
hasil yang berkontribusi
asumsi tidak dinilai-sebagai-tidak-relevan
bias kumpulan dan penggunaan kembali
kesepakatan penilai
informasi relevansi yang tidak lengkap
penilaian relevansi crowdsourced

Key theories

Pengumpulan untuk penilaian yang terukur: Dengan hanya menilai gabungan dokumen-dokumen berperingkat teratas dari banyak sistem yang beragam, pengumpulan memungkinkan evaluasi koleksi besar secara praktis sambil tetap menemukan sebagian besar dokumen relevan yang akan dimunculkan oleh sistem yang wajar.
Kekhawatiran keandalan dan penggunaan kembali: Pengumpulan dapat kurang merepresentasikan dokumen relevan yang hanya ditemukan oleh sistem di masa depan, menimbulkan pertanyaan tentang bias dan penggunaan kembali yang memotivasi kumpulan yang lebih dalam, kontributor yang beragam, dan metrik yang kuat untuk penilaian yang tidak lengkap.

Clinical relevance

Pengumpulan adalah hal yang membuat koleksi uji bersama yang dapat digunakan kembali menjadi terjangkau, dan ini mendasari penilaian di balik puluhan tahun hasil tolok ukur. Memahami asumsinya penting saat menggunakan kembali koleksi lama untuk mengevaluasi metode baru, terutama sistem saraf yang mungkin memunculkan dokumen relevan yang tidak pernah dinilai oleh kumpulan asli.

History

Pengumpulan diadopsi oleh TREC sejak awal pada tahun 1992 untuk membuat penilaian koleksi besar menjadi dapat dikelola. Analisis Zobel tahun 1998 meneliti keandalan dan penggunaan kembali koleksi yang dikumpulkan, dan pekerjaan selanjutnya tentang penilaian yang tidak lengkap menghasilkan metrik dan strategi pengumpulan yang lebih dalam atau lebih cerdas untuk mengurangi bias seiring berkembangnya koleksi dan populasi sistem.

Key figures

Ellen M. Voorhees
Justin Zobel
Chris Buckley

Seminal works

voorhees2005
zobel1998
buckley2004

Frequently asked questions

Mengapa tidak menilai setiap dokumen dalam koleksi?: Koleksi besar berisi jutaan dokumen, sehingga menilai semuanya untuk setiap topik tidak praktis. Pengumpulan hanya menilai dokumen-dokumen yang diberi peringkat tinggi oleh sistem yang berkontribusi, yang menangkap sebagian besar dokumen relevan sambil menjaga upaya penilaian tetap dapat dikelola.
Apa risiko memperlakukan dokumen yang tidak dinilai sebagai tidak relevan?: Sistem selanjutnya mungkin mengambil dokumen relevan yang tidak pernah ada dalam kumpulan dan oleh karena itu dihitung sebagai tidak relevan, secara tidak adil menurunkan skor terukurnya. Bias kumpulan ini adalah alasan mengapa kumpulan yang lebih dalam, lebih beragam, dan metrik yang kuat terhadap penilaian digunakan saat menggunakan kembali koleksi.