Mengapa presisi saja tidak cukup untuk mengevaluasi sistem pencarian?

Presisi mengukur berapa banyak hasil yang diambil yang relevan tetapi mengabaikan berapa banyak dokumen relevan yang terlewatkan, yang ditangkap oleh perolehan. Sebuah sistem dapat memiliki presisi sempurna dengan mengembalikan satu hasil yang jelas relevan sambil melewatkan banyak lainnya, sehingga keduanya biasanya dipertimbangkan bersama atau digabungkan menjadi ukuran sensitif peringkat.

Keuntungan apa yang ditawarkan nDCG dibandingkan presisi rata-rata mean?

nDCG menggunakan relevansi bertingkat, membedakan hasil yang sangat relevan dari hasil yang relevan secara marginal, dan secara eksplisit mendiskon perolehan pada peringkat yang lebih rendah. Ini membuatnya sangat cocok untuk pencarian web, di mana pengguna paling peduli dengan hasil teratas dan relevansi tidak hanya ya atau tidak.

Metrik Efektivitas IR

Metrik efektivitas mengubah daftar hasil yang diberi peringkat menjadi angka yang mencerminkan seberapa baik daftar tersebut memenuhi kebutuhan informasi, memungkinkan sistem untuk dibandingkan dan dirata-ratakan di seluruh kueri.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Metrik efektivitas IR adalah fungsi yang memetakan keluaran peringkat sistem untuk satu atau lebih kueri, bersama dengan penilaian relevansi, ke skor yang mengukur kualitas pengambilan, dengan metrik yang berbeda menekankan perolehan, presisi awal, atau perolehan bertingkat pada peringkat teratas.

Scope

Topik ini mencakup ukuran yang digunakan untuk menilai keluaran pengambilan: presisi dan perolehan berbasis set serta kombinasi F-measure-nya, ukuran sensitif peringkat termasuk presisi pada k, presisi rata-rata dan presisi rata-rata mean, peringkat timbal balik, dan ukuran berbasis perolehan seperti perolehan kumulatif terdiskonto dan bentuk normalisasinya. Ini membahas apa yang dihargai oleh setiap metrik, bagaimana metrik menangani relevansi bertingkat dan penilaian yang tidak lengkap, serta bagaimana skor diagregasi dan diuji signifikansinya. Ini tidak termasuk koleksi dan penilaian yang menyediakan data relevansi.

Core questions

Bagaimana presisi dan perolehan menangkap aspek komplementer dari kualitas pengambilan?
Mengapa metrik sensitif peringkat diperlukan ketika pengguna memindai hasil dari atas ke bawah?
Bagaimana presisi rata-rata meringkas daftar peringkat menjadi satu angka?
Bagaimana metrik berbasis perolehan seperti nDCG menggunakan relevansi bertingkat dan diskon peringkat?
Bagaimana metrik dipengaruhi oleh penilaian relevansi yang tidak lengkap?

Key concepts

presisi dan perolehan
F-measure
presisi pada k
presisi rata-rata dan MAP
peringkat timbal balik rata-rata (MRR)
perolehan kumulatif terdiskonto (DCG / nDCG)
relevansi bertingkat
metrik kuat untuk penilaian tidak lengkap (bpref)

Key theories

Presisi, perolehan, dan presisi rata-rata: Presisi dan perolehan mengukur fraksi item yang diambil yang relevan dan fraksi item relevan yang diambil; presisi rata-rata mengintegrasikan presisi di seluruh tingkat perolehan untuk satu kueri, dan rata-ratanya di seluruh kueri (MAP) adalah ringkasan standar untuk pengambilan peringkat.
Perolehan kumulatif terdiskonto: Evaluasi berbasis perolehan menetapkan setiap hasil perolehan sesuai dengan relevansi bertingkatnya dan mendiskon perolehan pada peringkat yang lebih rendah, kemudian menormalisasi terhadap peringkat ideal, menghasilkan nDCG, yang menghargai penempatan item yang sangat relevan di dekat bagian atas.
Evaluasi dengan penilaian tidak lengkap: Ketika tidak semua dokumen dinilai, metrik naif dapat bias, memotivasi ukuran seperti bpref dan AP yang disimpulkan yang lebih kuat terhadap dokumen yang tidak dinilai dalam koleksi besar atau terkumpul.

Clinical relevance

Metrik efektivitas adalah tolok ukur di mana penelitian pengambilan dan industri mengukur kemajuan dan memilih di antara sistem. nDCG dan MAP khususnya merupakan rutinitas dalam kampanye evaluasi dan pengujian offline produksi, dan pilihan metrik membentuk perilaku mana yang dioptimalkan untuk dihasilkan oleh sistem peringkat.

History

Presisi dan perolehan berasal dari eksperimen IR paling awal, dan presisi rata-rata menjadi tulang punggung evaluasi ad hoc TREC. Ukuran perolehan kumulatif Järvelin dan Kekäläinen tahun 2002 memperkenalkan evaluasi relevansi bertingkat yang didiskon peringkat, menghasilkan nDCG, yang menjadi dominan untuk peringkat gaya web. Pekerjaan pada penilaian yang tidak lengkap menghasilkan metrik yang kuat untuk koleksi besar.

Key figures

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

Seminal works

manning2008
jarvelin2002
buckley2004

Frequently asked questions

Mengapa presisi saja tidak cukup untuk mengevaluasi sistem pencarian?: Presisi mengukur berapa banyak hasil yang diambil yang relevan tetapi mengabaikan berapa banyak dokumen relevan yang terlewatkan, yang ditangkap oleh perolehan. Sebuah sistem dapat memiliki presisi sempurna dengan mengembalikan satu hasil yang jelas relevan sambil melewatkan banyak lainnya, sehingga keduanya biasanya dipertimbangkan bersama atau digabungkan menjadi ukuran sensitif peringkat.
Keuntungan apa yang ditawarkan nDCG dibandingkan presisi rata-rata mean?: nDCG menggunakan relevansi bertingkat, membedakan hasil yang sangat relevan dari hasil yang relevan secara marginal, dan secara eksplisit mendiskon perolehan pada peringkat yang lebih rendah. Ini membuatnya sangat cocok untuk pencarian web, di mana pengguna paling peduli dengan hasil teratas dan relevansi tidak hanya ya atau tidak.