Qrels (penilaian relevansi kueri) adalah catatan yang menyatakan, untuk setiap topik dalam koleksi uji, dokumen mana yang telah dinilai relevan dan pada tingkat berapa. Alat evaluasi membandingkan keluaran peringkat sistem dengan qrels untuk menghitung metrik efektivitas.

Apakah ketidaksepakatan antara penilai manusia membatalkan koleksi uji?

Penilai memang tidak setuju pada dokumen individu, tetapi penelitian telah berulang kali menunjukkan bahwa urutan relatif sistem tetap stabil di antara penilai yang berbeda. Jadi, meskipun skor absolut bergeser, kesimpulan tentang sistem mana yang lebih baik umumnya kuat.

Koleksi Uji dan Penilaian Relevansi

Koleksi uji menggabungkan satu set dokumen, satu set kueri, dan penilaian relevansi manusia sehingga sistem temu kembali dapat dinilai dan dibandingkan secara reproduktif.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Koleksi uji adalah kumpulan data tetap yang terdiri dari korpus dokumen, satu set pernyataan kueri atau topik yang menjelaskan kebutuhan informasi, dan penilaian relevansi yang menentukan dokumen mana yang relevan dengan setiap topik, yang bersama-sama memungkinkan pengukuran efektivitas temu kembali yang dapat direproduksi.

Scope

Topik ini mencakup konstruksi dan penggunaan koleksi uji IR yang dapat digunakan kembali mengikuti paradigma Cranfield: korpus dokumen, pernyataan topik yang mendefinisikan kebutuhan informasi, dan penilaian relevansi (qrels) yang mencatat dokumen mana yang relevan dengan setiap topik. Ini membahas relevansi berjenjang versus biner, konsistensi penilaian, kegunaan kembali koleksi untuk sistem baru, dan peran upaya berskala besar seperti TREC. Ini tidak termasuk metrik yang dihitung dari penilaian dan prosedur pengumpulan yang digunakan untuk mengumpulkannya, yang merupakan topik yang berdekatan.

Core questions

Apa tiga komponen koleksi uji gaya Cranfield?
Bagaimana kebutuhan informasi yang dinyatakan sebagai topik berbeda dari kueri singkat yang diberikan kepada sistem?
Bagaimana relevansi didefinisikan dan dicatat, dan kapan relevansi berjenjang digunakan?
Seberapa konsisten penilaian relevansi manusia, dan apakah inkonsistensi memengaruhi perbandingan?
Apa yang membuat koleksi uji dapat digunakan kembali untuk sistem yang tidak berkontribusi padanya?

Key concepts

korpus dokumen
pernyataan topik / kebutuhan informasi
penilaian relevansi (qrels)
relevansi biner vs. berjenjang
kesepakatan penilai
kegunaan kembali koleksi
koleksi uji TREC
kebenaran dasar untuk evaluasi

Key theories

Paradigma Cranfield: Memperbaiki dokumen, kueri, dan penilaian relevansi menciptakan pengaturan laboratorium terkontrol di mana keluaran peringkat sistem apa pun dapat dinilai terhadap penilaian, membuat eksperimen temu kembali dapat direproduksi dan dibandingkan.
Ketahanan perbandingan terhadap ketidaksepakatan penilai: Meskipun penilai manusia tidak setuju tentang keputusan relevansi individu, penelitian menunjukkan bahwa peringkat relatif sistem pada suatu koleksi sebagian besar stabil di antara penilai, mendukung validitas perbandingan koleksi uji.

Clinical relevance

Koleksi uji bersama adalah mata uang umum penelitian IR, memungkinkan peneliti di seluruh dunia membandingkan sistem pada tugas yang identik dan mereproduksi hasil. Koleksi dari kampanye evaluasi seperti TREC, CLEF, dan NTCIR telah membentuk kemajuan selama beberapa dekade dan tetap menjadi tolok ukur standar untuk metode temu kembali yang baru.

History

Metodologi koleksi uji berasal dari eksperimen Cranfield Cleverdon pada tahun 1960-an, yang membandingkan pendekatan pengindeksan menggunakan kueri dan penilaian tetap. Peluncuran TREC pada tahun 1992 meningkatkan paradigma ke koleksi besar dan realistis serta banyak tugas, menghasilkan koleksi standar yang dapat digunakan kembali yang menjadi dasar evaluasi IR modern.

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Donna Harman

Seminal works

cleverdon1967
voorhees2005

Frequently asked questions

Apa itu 'qrels'?: Qrels (penilaian relevansi kueri) adalah catatan yang menyatakan, untuk setiap topik dalam koleksi uji, dokumen mana yang telah dinilai relevan dan pada tingkat berapa. Alat evaluasi membandingkan keluaran peringkat sistem dengan qrels untuk menghitung metrik efektivitas.
Apakah ketidaksepakatan antara penilai manusia membatalkan koleksi uji?: Penilai memang tidak setuju pada dokumen individu, tetapi penelitian telah berulang kali menunjukkan bahwa urutan relatif sistem tetap stabil di antara penilai yang berbeda. Jadi, meskipun skor absolut bergeser, kesimpulan tentang sistem mana yang lebih baik umumnya kuat.