Metrik Efektivitas IR
Metrik efektivitas mengubah daftar hasil yang diberi peringkat menjadi angka yang mencerminkan seberapa baik daftar tersebut memenuhi kebutuhan informasi, memungkinkan sistem untuk dibandingkan dan dirata-ratakan di seluruh kueri.
Definition
Metrik efektivitas IR adalah fungsi yang memetakan keluaran peringkat sistem untuk satu atau lebih kueri, bersama dengan penilaian relevansi, ke skor yang mengukur kualitas pengambilan, dengan metrik yang berbeda menekankan perolehan, presisi awal, atau perolehan bertingkat pada peringkat teratas.
Scope
Topik ini mencakup ukuran yang digunakan untuk menilai keluaran pengambilan: presisi dan perolehan berbasis set serta kombinasi F-measure-nya, ukuran sensitif peringkat termasuk presisi pada k, presisi rata-rata dan presisi rata-rata mean, peringkat timbal balik, dan ukuran berbasis perolehan seperti perolehan kumulatif terdiskonto dan bentuk normalisasinya. Ini membahas apa yang dihargai oleh setiap metrik, bagaimana metrik menangani relevansi bertingkat dan penilaian yang tidak lengkap, serta bagaimana skor diagregasi dan diuji signifikansinya. Ini tidak termasuk koleksi dan penilaian yang menyediakan data relevansi.
Core questions
- Bagaimana presisi dan perolehan menangkap aspek komplementer dari kualitas pengambilan?
- Mengapa metrik sensitif peringkat diperlukan ketika pengguna memindai hasil dari atas ke bawah?
- Bagaimana presisi rata-rata meringkas daftar peringkat menjadi satu angka?
- Bagaimana metrik berbasis perolehan seperti nDCG menggunakan relevansi bertingkat dan diskon peringkat?
- Bagaimana metrik dipengaruhi oleh penilaian relevansi yang tidak lengkap?
Key concepts
- presisi dan perolehan
- F-measure
- presisi pada k
- presisi rata-rata dan MAP
- peringkat timbal balik rata-rata (MRR)
- perolehan kumulatif terdiskonto (DCG / nDCG)
- relevansi bertingkat
- metrik kuat untuk penilaian tidak lengkap (bpref)
Key theories
- Presisi, perolehan, dan presisi rata-rata
- Presisi dan perolehan mengukur fraksi item yang diambil yang relevan dan fraksi item relevan yang diambil; presisi rata-rata mengintegrasikan presisi di seluruh tingkat perolehan untuk satu kueri, dan rata-ratanya di seluruh kueri (MAP) adalah ringkasan standar untuk pengambilan peringkat.
- Perolehan kumulatif terdiskonto
- Evaluasi berbasis perolehan menetapkan setiap hasil perolehan sesuai dengan relevansi bertingkatnya dan mendiskon perolehan pada peringkat yang lebih rendah, kemudian menormalisasi terhadap peringkat ideal, menghasilkan nDCG, yang menghargai penempatan item yang sangat relevan di dekat bagian atas.
- Evaluasi dengan penilaian tidak lengkap
- Ketika tidak semua dokumen dinilai, metrik naif dapat bias, memotivasi ukuran seperti bpref dan AP yang disimpulkan yang lebih kuat terhadap dokumen yang tidak dinilai dalam koleksi besar atau terkumpul.
Clinical relevance
Metrik efektivitas adalah tolok ukur di mana penelitian pengambilan dan industri mengukur kemajuan dan memilih di antara sistem. nDCG dan MAP khususnya merupakan rutinitas dalam kampanye evaluasi dan pengujian offline produksi, dan pilihan metrik membentuk perilaku mana yang dioptimalkan untuk dihasilkan oleh sistem peringkat.
History
Presisi dan perolehan berasal dari eksperimen IR paling awal, dan presisi rata-rata menjadi tulang punggung evaluasi ad hoc TREC. Ukuran perolehan kumulatif Järvelin dan Kekäläinen tahun 2002 memperkenalkan evaluasi relevansi bertingkat yang didiskon peringkat, menghasilkan nDCG, yang menjadi dominan untuk peringkat gaya web. Pekerjaan pada penilaian yang tidak lengkap menghasilkan metrik yang kuat untuk koleksi besar.
Key figures
- Kalervo Järvelin
- Jaana Kekäläinen
- Ellen M. Voorhees
- Chris Buckley
Related topics
Seminal works
- manning2008
- jarvelin2002
- buckley2004
Frequently asked questions
- Mengapa presisi saja tidak cukup untuk mengevaluasi sistem pencarian?
- Presisi mengukur berapa banyak hasil yang diambil yang relevan tetapi mengabaikan berapa banyak dokumen relevan yang terlewatkan, yang ditangkap oleh perolehan. Sebuah sistem dapat memiliki presisi sempurna dengan mengembalikan satu hasil yang jelas relevan sambil melewatkan banyak lainnya, sehingga keduanya biasanya dipertimbangkan bersama atau digabungkan menjadi ukuran sensitif peringkat.
- Keuntungan apa yang ditawarkan nDCG dibandingkan presisi rata-rata mean?
- nDCG menggunakan relevansi bertingkat, membedakan hasil yang sangat relevan dari hasil yang relevan secara marginal, dan secara eksplisit mendiskon perolehan pada peringkat yang lebih rendah. Ini membuatnya sangat cocok untuk pencarian web, di mana pengguna paling peduli dengan hasil teratas dan relevansi tidak hanya ya atau tidak.