ScholarGate
Asisten

Evaluasi Pengguna dan Daring

Evaluasi pengguna dan daring mengukur kualitas perolehan informasi melalui interaksi pengguna nyata atau simulasi, menggunakan studi, data klik, uji A/B, dan interleaving, alih-alih penilaian relevansi yang tetap.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Evaluasi pengguna dan daring meliputi metode yang menilai sistem perolehan informasi melalui interaksi pengguna, mulai dari studi laboratorium terkontrol tentang kinerja tugas dan kepuasan hingga eksperimen daring berskala besar seperti uji A/B dan interleaving yang membandingkan sistem dengan mengamati perilaku pengguna nyata.

Scope

Topik ini mencakup evaluasi yang berpusat pada pengguna dan perilakunya: studi pengguna interaktif tentang keberhasilan tugas dan kepuasan, penggunaan sinyal implisit seperti klik dan waktu tinggal, model klik yang menginterpretasikan perilaku, dan eksperimen daring terkontrol termasuk pengujian A/B dan interleaving. Ini membahas cara mengukur manfaat pengguna nyata, bias sinyal perilaku, serta desain dan analisis eksperimen daring. Ini melengkapi evaluasi koleksi uji luring yang dibahas dalam topik-topik terkait.

Core questions

  • Bagaimana kepuasan pengguna nyata dan keberhasilan tugas dapat diukur, alih-alih hanya relevansi terhadap penilaian?
  • Sinyal implisit apa yang diberikan pengguna, dan seberapa andalkah sinyal tersebut?
  • Bagaimana model klik memperhitungkan bias posisi dan presentasi?
  • Bagaimana pengujian A/B dan interleaving membandingkan sistem secara daring?
  • Mengapa interleaving seringkali lebih sensitif daripada pengujian A/B untuk perbandingan peringkat?

Key concepts

  • studi pengguna interaktif
  • keberhasilan dan kepuasan tugas
  • umpan balik implisit (klik, waktu tinggal)
  • model klik (posisi, kaskade)
  • bias posisi dan presentasi
  • pengujian A/B
  • interleaving
  • metrik daring dan sensitivitas

Key theories

Umpan balik implisit dan model klik
Klik pengguna dan interaksi lainnya memberikan sinyal relevansi yang melimpah tetapi bias; model klik seperti model posisi dan kaskade memformalkan bagaimana pengguna memeriksa hasil sehingga klik dapat diinterpretasikan sebagai bukti relevansi.
Eksperimen daring terkontrol
Pengujian A/B secara acak menugaskan pengguna ke varian sistem dan membandingkan metrik hasil, sementara interleaving memadukan dua peringkat menjadi satu daftar dan mengaitkan klik, seringkali menghasilkan perbandingan kualitas peringkat dalam pengguna yang lebih sensitif.

Clinical relevance

Evaluasi daring adalah cara utama sistem pencarian, rekomendasi, dan e-commerce berskala besar memutuskan perubahan mana yang akan diterapkan, karena ini mengukur dampak pengguna nyata. Pengujian A/B dan interleaving, yang diinterpretasikan melalui model klik yang mengoreksi bias, mendorong peningkatan berkelanjutan dari peringkat produksi dalam skala besar.

History

Evaluasi IR yang berpusat pada pengguna telah lama mempelajari perilaku pencarian interaktif, tetapi munculnya pencarian web membuat evaluasi daring berskala besar menjadi praktis. Karya Joachims tahun 2002 menetapkan data clickthrough sebagai sinyal relevansi dan memperkenalkan interleaving, eksperimen web terkontrol berkembang di industri sepanjang tahun 2000-an, dan survei tahun 2016 mengonsolidasikan metode evaluasi daring.

Key figures

  • Thorsten Joachims
  • Filip Radlinski
  • Katja Hofmann
  • Ron Kohavi

Related topics

Seminal works

  • hofmann2016
  • joachims2002
  • kohavi2009

Frequently asked questions

Apa itu interleaving dan mengapa digunakan?
Interleaving menggabungkan hasil dari dua sistem peringkat ke dalam satu daftar yang ditampilkan kepada setiap pengguna dan mengaitkan klik ke sistem mana pun yang menyumbangkan setiap hasil yang diklik. Karena setiap pengguna secara efektif membandingkan kedua sistem sekaligus, interleaving seringkali lebih sensitif daripada pengujian A/B untuk mendeteksi peningkatan peringkat.
Mengapa klik tidak dapat dianggap sebagai relevansi secara langsung?
Pengguna cenderung mengklik hasil yang berperingkat lebih tinggi terlepas dari relevansi sebenarnya (bias posisi) dan dipengaruhi oleh cara hasil disajikan. Model klik mengoreksi bias ini sehingga klik dapat diinterpretasikan sebagai bukti relevansi yang lebih andal.

Methods for this concept

Related concepts