Bir öneri sistemini değerlendirmek için doğruluk neden yeterli değildir?

Bir öneri sistemi doğru olabilir ancak yine de faydasız olabilir; örneğin, kullanıcının zaten bildiği öğeleri veya neredeyse aynı öğeleri önerebilir. Çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve kapsama gibi özellikler, doğruluğun gözden kaçırdığı faydalılık yönlerini yakalamaktadır, bu nedenle iyi bir değerlendirme birden fazla boyutu dikkate almaktadır.

Öneri sistemleri değerlendirmesinde veri bölme neden zordur?

Öneri verileri zamana göre sıralıdır ve popüler öğelere doğru çarpıktır, bu nedenle basit rastgele bölmeler gelecekteki bilgileri sızdırabilir veya sadece popüler öğeleri önermeyi ödüllendirebilir. Çevrimdışı sonuçların gerçek performansı tahmin edici olmasını sağlamak için dikkatli zaman tabanlı bölmeler ve yanlılık farkında metrikler gerekmektedir.

Öneri Sistemleri Değerlendirmesi

Öneri sistemleri değerlendirmesi, tahmin doğruluğu, sıralama kalitesi ve çeşitlilik, yenilik, kapsama gibi doğruluk ötesi özellikleri kapsayarak önerilerin ne kadar iyi olduğunu ölçmektedir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Öneri sistemleri değerlendirmesi, bir öneri sisteminin kalitesini değerlendirmek için kullanılan metodolojiler ve metrikler bütünüdür; bu kapsamda ayrılmış veriler üzerinde hesaplanan çevrimdışı doğruluk ve sıralama ölçütleri, öneri kümesinin doğruluk ötesi özellikleri ile kullanıcı merkezli ve çevrimiçi deneyler yer almaktadır.

Kapsam

Bu konu, öneri sistemlerinin nasıl değerlendirildiğini kapsamaktadır: ayrılmış etkileşim verileri kullanılarak yapılan çevrimdışı deneyler, derecelendirme tahmini ve ilk N sıralaması için doğruluk ölçütleri ve çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve katalog kapsamı dahil olmak üzere doğruluk ötesi kriterler ile kullanıcı çalışmaları ve çevrimiçi deneyler. Ayrıca, veri bölme ve popülerlik yanlılığı gibi öneri sistemlerine özgü deneysel tasarım tuzaklarını ele almakta ve bilgi erişiminde kullanılan daha geniş çevrimiçi değerlendirme yöntemleriyle bağlantı kurmaktadır.

Temel sorular

Derecelendirme tahmini ile ilk N sıralaması için öneri kalitesi nasıl ölçülmektedir?
Doğruluk metrikleri tek başına bir öneri sistemini değerlendirmek için neden yetersizdir?
Çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve kapsama nasıl nicelleştirilmektedir?
Etkileşim verileri, bilgi sızıntısı (leakage) ve popülerlik yanlılığını önlemek için nasıl bölünmelidir?
Çevrimdışı, kullanıcı çalışması ve çevrimiçi değerlendirmeler birbirini nasıl tamamlamaktadır?

Anahtar kavramlar

derecelendirme tahmini doğruluğu (MAE, RMSE)
ilk N sıralama metrikleri (kesinlik, geri çağırma, nDCG)
çeşitlilik ve yenilik
tesadüfi keşif (serendipity)
katalog kapsamı
çevrimdışı ve çevrimiçi değerlendirme
veri bölme ve bilgi sızıntısı (leakage)
popülerlik yanlılığı

Temel kuramlar

Doğruluk ve sıralama değerlendirmesi: Öneri sistemleri, hata ölçütleri kullanılarak derecelendirmeleri ne kadar iyi tahmin ettiklerine göre veya kesinlik, geri çağırma ve normalize edilmiş iskonto edilmiş kümülatif kazanç gibi ilk N ölçütleri kullanılarak öğeleri ne kadar iyi sıraladıklarına göre puanlanmaktadır; ikincisi, önerilerin nasıl tüketildiğiyle daha iyi uyum sağlamaktadır.
Doğruluk ötesi değerlendirme: Doğru ancak gereksiz veya bariz öneriler kullanıcıları tatmin etmeyebileceğinden, değerlendirme aynı zamanda çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve kapsamayı da dikkate almakta, öneri kalitesinin çok boyutlu olduğunu kabul etmektedir.

Klinik önem

Sağlam bir değerlendirme, hangi öneri değişikliklerinin uygulanacağını belirlemekte ve yanlış hedefin optimize edilmesine karşı koruma sağlamaktadır. Çeşitlilik ve yenilik gibi doğruluk ötesi kaygılar, kullanıcı memnuniyetini ve etkileşimini doğrudan etkilemekte ve öneri sistemlerindeki filtre balonları ile adalet gibi daha geniş konularla bağlantı kurmaktadır.

Tarihçe

Herlocker ve meslektaşlarının 2004 tarihli makalesi, işbirlikçi filtreleme öneri sistemlerini değerlendirmek için görevleri ve metrikleri açıklığa kavuşturan titiz bir çerçeve ortaya koymuştur. Netflix Ödülü, RMSE tabanlı doğruluk değerlendirmesini popülerleştirmiş, bunun ardından alan, sıralama ve doğruluk ötesi ölçütlere doğru genişlemiş ve değerlendirmenin hedeflenen kullanıcı görevine uygunluğunu vurgulayan el kitabı bölümlerinde pekiştirilmiştir.

Öne çıkan isimler

Jonathan Herlocker
Joseph Konstan
Guy Shani
Asela Gunawardana

İlgili konular

Temel eserler

herlocker2004
shani2011
ricci2015

Sıkça sorulan sorular

Bir öneri sistemini değerlendirmek için doğruluk neden yeterli değildir?: Bir öneri sistemi doğru olabilir ancak yine de faydasız olabilir; örneğin, kullanıcının zaten bildiği öğeleri veya neredeyse aynı öğeleri önerebilir. Çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve kapsama gibi özellikler, doğruluğun gözden kaçırdığı faydalılık yönlerini yakalamaktadır, bu nedenle iyi bir değerlendirme birden fazla boyutu dikkate almaktadır.
Öneri sistemleri değerlendirmesinde veri bölme neden zordur?: Öneri verileri zamana göre sıralıdır ve popüler öğelere doğru çarpıktır, bu nedenle basit rastgele bölmeler gelecekteki bilgileri sızdırabilir veya sadece popüler öğeleri önermeyi ödüllendirebilir. Çevrimdışı sonuçların gerçek performansı tahmin edici olmasını sağlamak için dikkatli zaman tabanlı bölmeler ve yanlılık farkında metrikler gerekmektedir.