ScholarGate
Asistan

Kullanıcı ve Çevrimiçi Değerlendirme

Kullanıcı ve çevrimiçi değerlendirme, sabit alaka düzeyi yargıları yerine çalışmalar, tıklama verileri, A/B testleri ve araya ekleme (interleaving) gibi yöntemler kullanarak gerçek veya simüle edilmiş kullanıcı etkileşimi aracılığıyla bilgi erişim kalitesini ölçmektedir.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Kullanıcı ve çevrimiçi değerlendirme, görev performansı ve memnuniyetine yönelik kontrollü laboratuvar çalışmalarından, gerçek kullanıcıların davranışlarını gözlemleyerek sistemleri karşılaştıran A/B testleri ve araya ekleme (interleaving) gibi büyük ölçekli çevrimiçi deneylere kadar, kullanıcı etkileşimi aracılığıyla bilgi erişim sistemlerini değerlendiren yöntemleri içermektedir.

Kapsam

Bu konu, kullanıcılar ve davranışları üzerine odaklanan değerlendirmeyi kapsamaktadır: görev başarısı ve memnuniyetine yönelik etkileşimli kullanıcı çalışmaları, tıklamalar ve bekleme süresi gibi örtük sinyallerin kullanımı, davranışı yorumlayan tıklama modelleri ve A/B testi ile araya ekleme (interleaving) dahil kontrollü çevrimiçi deneyler. Gerçek kullanıcı faydasının nasıl ölçüleceği, davranışsal sinyallerin yanlılıkları ve çevrimiçi deneylerin tasarımı ile analizi ele alınmaktadır. Bu konu, ilgili diğer başlıklarda ele alınan çevrimdışı test koleksiyonu değerlendirmesini tamamlamaktadır.

Temel sorular

  • Gerçek kullanıcı memnuniyeti ve görev başarısı, sadece yargılara göre alaka düzeyi yerine nasıl ölçülebilir?
  • Kullanıcılar hangi örtük sinyalleri sağlamaktadır ve bunlar ne kadar güvenilirdir?
  • Tıklama modelleri, konum ve sunum yanlılığını nasıl açıklamaktadır?
  • A/B testi ve araya ekleme (interleaving) çevrimiçi sistemleri nasıl karşılaştırmaktadır?
  • Araya ekleme (interleaving), sıralama karşılaştırmaları için A/B testinden neden genellikle daha hassastır?

Anahtar kavramlar

  • etkileşimli kullanıcı çalışması
  • görev başarısı ve memnuniyeti
  • örtük geri bildirim (tıklamalar, bekleme süresi)
  • tıklama modelleri (konum, basamaklı)
  • konum ve sunum yanlılığı
  • A/B testi
  • araya ekleme (interleaving)
  • çevrimiçi metrikler ve hassasiyet

Temel kuramlar

Örtük geri bildirim ve tıklama modelleri
Kullanıcı tıklamaları ve diğer etkileşimler, bol ancak yanlı alaka düzeyi sinyalleri sağlamaktadır; konum ve basamaklı modeller gibi tıklama modelleri, kullanıcıların sonuçları nasıl incelediğini biçimlendirerek tıklamaların alaka düzeyi kanıtı olarak yorumlanabilmesini sağlamaktadır.
Kontrollü çevrimiçi deneyler
A/B testi, kullanıcıları rastgele sistem varyantlarına atar ve sonuç metriklerini karşılaştırırken, araya ekleme (interleaving) iki sıralamayı tek bir listede birleştirir ve tıklamaları ilişkilendirir, bu da genellikle sıralama kalitesinin kullanıcı içi daha hassas karşılaştırmalarını sağlamaktadır.

Klinik önem

Çevrimiçi değerlendirme, büyük arama, öneri ve e-ticaret sistemlerinin hangi değişiklikleri uygulamaya koyacağına karar vermesinin birincil yoludur, çünkü gerçek kullanıcı etkisini ölçmektedir. Yanlılığı düzelten tıklama modelleri aracılığıyla yorumlanan A/B testi ve araya ekleme (interleaving), üretim sıralamasının büyük ölçekte sürekli iyileştirilmesini sağlamaktadır.

Tarihçe

Kullanıcı merkezli bilgi erişim (IR) değerlendirmesi, etkileşimli arama davranışını uzun süredir incelemektedir, ancak web aramasının yükselişi, büyük ölçekli çevrimiçi değerlendirmeyi pratik hale getirmiştir. Joachims'in 2002 tarihli çalışması, tıklama verilerini bir alaka düzeyi sinyali olarak kabul etmiş ve araya eklemeyi (interleaving) tanıtmıştır; kontrollü web deneyleri 2000'li yıllar boyunca sektörde olgunlaşmış ve 2016 tarihli anket, çevrimiçi değerlendirme yöntemlerini pekiştirmiştir.

Öne çıkan isimler

  • Thorsten Joachims
  • Filip Radlinski
  • Katja Hofmann
  • Ron Kohavi

İlgili konular

Temel eserler

  • hofmann2016
  • joachims2002
  • kohavi2009

Sıkça sorulan sorular

Araya ekleme (interleaving) nedir ve neden kullanılmaktadır?
Araya ekleme (interleaving), iki sıralama sisteminin sonuçlarını her kullanıcıya gösterilen tek bir listede birleştirir ve tıklamaları, tıklanan her sonucu sağlayan sisteme atfeder. Her kullanıcı her iki sistemi de aynı anda etkili bir şekilde karşılaştırdığı için, araya ekleme (interleaving) sıralama iyileştirmelerini tespit etmede A/B testinden genellikle daha hassastır.
Tıklamalar neden alaka düzeyi olarak doğrudan kabul edilemez?
Kullanıcılar, gerçek alaka düzeyinden bağımsız olarak daha üst sıralardaki sonuçlara tıklama eğilimindedir (konum yanlılığı) ve sonuçların sunulma biçiminden etkilenmektedir. Tıklama modelleri bu yanlılıkları düzelterek tıklamaların daha güvenilir bir alaka düzeyi kanıtı olarak yorumlanabilmesini sağlamaktadır.

Bu kavram için yöntemler

İlgili kavramlar