Evaluasi dalam Penemuan Informasi
Evaluasi dalam penemuan informasi adalah metodologi untuk mengukur seberapa baik sistem penemuan informasi memenuhi kebutuhan informasi, menggunakan koleksi uji, penilaian relevansi, dan metrik efektivitas.
Definition
Evaluasi penemuan informasi adalah seperangkat metode eksperimental dan metrik yang digunakan untuk mengukur efektivitas sistem dalam mengembalikan hasil yang relevan untuk kebutuhan informasi yang dinyatakan, meliputi eksperimen koleksi uji luring dan eksperimen berbasis pengguna daring.
Scope
Area ini mencakup bagaimana kualitas penemuan diukur: paradigma koleksi uji Cranfield yang terdiri dari dokumen, kueri, dan penilaian relevansi; metrik efektivitas seperti presisi, recall, presisi rata-rata (mean average precision), dan perolehan kumulatif terdiskonto yang dinormalisasi (normalized discounted cumulative gain); metode penggabungan (pooling) dan penilaian untuk mengumpulkan penilaian dalam skala besar; serta evaluasi berpusat pada pengguna dan daring melalui studi dan eksperimen terkontrol seperti pengujian A/B dan interleaving. Ini membahas ilmu pengukuran efektivitas, berbeda dari model dan sistem yang diukur.
Sub-topics
Core questions
- Bagaimana kualitas daftar peringkat dapat diukur secara objektif?
- Apa yang membentuk koleksi uji yang dapat digunakan kembali, dan bagaimana relevansi dinilai?
- Metrik mana yang menangkap kualitas peringkat yang dirasakan pengguna?
- Bagaimana penilaian relevansi dapat dikumpulkan secara terjangkau untuk koleksi besar?
- Bagaimana eksperimen daring mengukur kepuasan pengguna nyata?
Key concepts
- koleksi uji
- penilaian relevansi (qrels)
- presisi dan recall
- presisi rata-rata (MAP)
- perolehan kumulatif terdiskonto yang dinormalisasi (nDCG)
- penggabungan (pooling)
- interleaving dan pengujian A/B
- signifikansi statistik hasil
Key theories
- Paradigma koleksi uji Cranfield
- Sistem penemuan dapat dibandingkan secara reproduktif dengan menetapkan koleksi dokumen, serangkaian kueri, dan penilaian relevansi manusia, kemudian menilai keluaran setiap sistem terhadap penilaian tersebut, memungkinkan eksperimen yang terkontrol dan dapat diulang.
- Efektivitas sebagai konstruk yang dapat diukur
- Mendefinisikan metrik pada keluaran peringkat, dari presisi dan recall berbasis set hingga ukuran sensitif peringkat seperti presisi rata-rata dan perolehan kumulatif terdiskonto, mengubah gagasan samar tentang kualitas pencarian menjadi kuantitas yang dapat dirata-ratakan di seluruh kueri dan dibandingkan secara statistik.
- Komplementaritas evaluasi luring dan daring
- Eksperimen koleksi uji menawarkan reproduktifitas dan kontrol tetapi bergantung pada relevansi yang dinilai, sedangkan eksperimen daring seperti pengujian A/B dan interleaving mengukur perilaku pengguna nyata, dan keduanya bersama-sama memberikan gambaran yang lebih lengkap tentang kualitas sistem.
Clinical relevance
Evaluasi yang ketat memungkinkan bidang ini mengukur kemajuan dan membandingkan sistem secara adil; koleksi uji bersama dan kampanye evaluasi seperti TREC telah mendorong kemajuan selama beberapa dekade. Metode evaluasi daring seperti pengujian A/B dan interleaving adalah alat inti untuk meningkatkan sistem pencarian dan rekomendasi produksi.
History
Evaluasi IR sistematis dimulai dengan eksperimen Cranfield oleh Cleverdon pada tahun 1960-an, yang menetapkan paradigma koleksi uji. The Text REtrieval Conference (TREC), yang diluncurkan pada tahun 1992 oleh NIST, menskalakan pendekatan ini ke koleksi besar dan banyak tugas, menstandardisasi metrik dan penggabungan. Evaluasi daring melalui eksperimen terkontrol berkembang dengan sistem interaktif berskala web.
Key figures
- Cyril Cleverdon
- Ellen M. Voorhees
- Karen Spärck Jones
- Mark Sanderson
Related topics
Seminal works
- cleverdon1967
- voorhees2005
- sanderson2010
Frequently asked questions
- Mengapa koleksi uji begitu sentral bagi penelitian IR?
- Koleksi uji dokumen, kueri, dan penilaian relevansi memungkinkan sistem yang berbeda dinilai pada tugas yang persis sama, membuat perbandingan dapat direproduksi dan adil. Koleksi yang dapat digunakan kembali juga memungkinkan sistem baru dievaluasi tanpa mengumpulkan penilaian baru setiap saat.
- Mengapa menggunakan evaluasi daring jika koleksi uji sudah ada?
- Koleksi uji mengukur efektivitas terhadap penilaian tetap tetapi tidak dapat sepenuhnya menangkap kepuasan pengguna nyata, konteks, atau perilaku. Eksperimen daring seperti pengujian A/B dan interleaving mengamati bagaimana pengguna sebenarnya merespons, melengkapi metrik luring dengan bukti perilaku.