Apa itu interleaving dan mengapa digunakan?

Interleaving menggabungkan hasil dari dua sistem peringkat ke dalam satu daftar yang ditampilkan kepada setiap pengguna dan mengaitkan klik ke sistem mana pun yang menyumbangkan setiap hasil yang diklik. Karena setiap pengguna secara efektif membandingkan kedua sistem sekaligus, interleaving seringkali lebih sensitif daripada pengujian A/B untuk mendeteksi peningkatan peringkat.

Mengapa klik tidak dapat dianggap sebagai relevansi secara langsung?

Pengguna cenderung mengklik hasil yang berperingkat lebih tinggi terlepas dari relevansi sebenarnya (bias posisi) dan dipengaruhi oleh cara hasil disajikan. Model klik mengoreksi bias ini sehingga klik dapat diinterpretasikan sebagai bukti relevansi yang lebih andal.

Evaluasi Pengguna dan Daring

Evaluasi pengguna dan daring mengukur kualitas perolehan informasi melalui interaksi pengguna nyata atau simulasi, menggunakan studi, data klik, uji A/B, dan interleaving, alih-alih penilaian relevansi yang tetap.

Temukan Topik dengan PaperMindSegeraFind papers & topics

Tools & resources

Unduh salindia

Learn & explore

VideoSegera

Definition

Evaluasi pengguna dan daring meliputi metode yang menilai sistem perolehan informasi melalui interaksi pengguna, mulai dari studi laboratorium terkontrol tentang kinerja tugas dan kepuasan hingga eksperimen daring berskala besar seperti uji A/B dan interleaving yang membandingkan sistem dengan mengamati perilaku pengguna nyata.

Scope

Topik ini mencakup evaluasi yang berpusat pada pengguna dan perilakunya: studi pengguna interaktif tentang keberhasilan tugas dan kepuasan, penggunaan sinyal implisit seperti klik dan waktu tinggal, model klik yang menginterpretasikan perilaku, dan eksperimen daring terkontrol termasuk pengujian A/B dan interleaving. Ini membahas cara mengukur manfaat pengguna nyata, bias sinyal perilaku, serta desain dan analisis eksperimen daring. Ini melengkapi evaluasi koleksi uji luring yang dibahas dalam topik-topik terkait.

Core questions

Bagaimana kepuasan pengguna nyata dan keberhasilan tugas dapat diukur, alih-alih hanya relevansi terhadap penilaian?
Sinyal implisit apa yang diberikan pengguna, dan seberapa andalkah sinyal tersebut?
Bagaimana model klik memperhitungkan bias posisi dan presentasi?
Bagaimana pengujian A/B dan interleaving membandingkan sistem secara daring?
Mengapa interleaving seringkali lebih sensitif daripada pengujian A/B untuk perbandingan peringkat?

Key concepts

studi pengguna interaktif
keberhasilan dan kepuasan tugas
umpan balik implisit (klik, waktu tinggal)
model klik (posisi, kaskade)
bias posisi dan presentasi
pengujian A/B
interleaving
metrik daring dan sensitivitas

Key theories

Umpan balik implisit dan model klik: Klik pengguna dan interaksi lainnya memberikan sinyal relevansi yang melimpah tetapi bias; model klik seperti model posisi dan kaskade memformalkan bagaimana pengguna memeriksa hasil sehingga klik dapat diinterpretasikan sebagai bukti relevansi.
Eksperimen daring terkontrol: Pengujian A/B secara acak menugaskan pengguna ke varian sistem dan membandingkan metrik hasil, sementara interleaving memadukan dua peringkat menjadi satu daftar dan mengaitkan klik, seringkali menghasilkan perbandingan kualitas peringkat dalam pengguna yang lebih sensitif.

Clinical relevance

Evaluasi daring adalah cara utama sistem pencarian, rekomendasi, dan e-commerce berskala besar memutuskan perubahan mana yang akan diterapkan, karena ini mengukur dampak pengguna nyata. Pengujian A/B dan interleaving, yang diinterpretasikan melalui model klik yang mengoreksi bias, mendorong peningkatan berkelanjutan dari peringkat produksi dalam skala besar.

History

Evaluasi IR yang berpusat pada pengguna telah lama mempelajari perilaku pencarian interaktif, tetapi munculnya pencarian web membuat evaluasi daring berskala besar menjadi praktis. Karya Joachims tahun 2002 menetapkan data clickthrough sebagai sinyal relevansi dan memperkenalkan interleaving, eksperimen web terkontrol berkembang di industri sepanjang tahun 2000-an, dan survei tahun 2016 mengonsolidasikan metode evaluasi daring.

Key figures

Thorsten Joachims
Filip Radlinski
Katja Hofmann
Ron Kohavi

Seminal works

hofmann2016
joachims2002
kohavi2009

Frequently asked questions

Apa itu interleaving dan mengapa digunakan?: Interleaving menggabungkan hasil dari dua sistem peringkat ke dalam satu daftar yang ditampilkan kepada setiap pengguna dan mengaitkan klik ke sistem mana pun yang menyumbangkan setiap hasil yang diklik. Karena setiap pengguna secara efektif membandingkan kedua sistem sekaligus, interleaving seringkali lebih sensitif daripada pengujian A/B untuk mendeteksi peningkatan peringkat.
Mengapa klik tidak dapat dianggap sebagai relevansi secara langsung?: Pengguna cenderung mengklik hasil yang berperingkat lebih tinggi terlepas dari relevansi sebenarnya (bias posisi) dan dipengaruhi oleh cara hasil disajikan. Model klik mengoreksi bias ini sehingga klik dapat diinterpretasikan sebagai bukti relevansi yang lebih andal.