Öneri Sistemleri Değerlendirmesi
Öneri sistemleri değerlendirmesi, tahmin doğruluğu, sıralama kalitesi ve çeşitlilik, yenilik, kapsama gibi doğruluk ötesi özellikleri kapsayarak önerilerin ne kadar iyi olduğunu ölçmektedir.
Tanım
Öneri sistemleri değerlendirmesi, bir öneri sisteminin kalitesini değerlendirmek için kullanılan metodolojiler ve metrikler bütünüdür; bu kapsamda ayrılmış veriler üzerinde hesaplanan çevrimdışı doğruluk ve sıralama ölçütleri, öneri kümesinin doğruluk ötesi özellikleri ile kullanıcı merkezli ve çevrimiçi deneyler yer almaktadır.
Kapsam
Bu konu, öneri sistemlerinin nasıl değerlendirildiğini kapsamaktadır: ayrılmış etkileşim verileri kullanılarak yapılan çevrimdışı deneyler, derecelendirme tahmini ve ilk N sıralaması için doğruluk ölçütleri ve çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve katalog kapsamı dahil olmak üzere doğruluk ötesi kriterler ile kullanıcı çalışmaları ve çevrimiçi deneyler. Ayrıca, veri bölme ve popülerlik yanlılığı gibi öneri sistemlerine özgü deneysel tasarım tuzaklarını ele almakta ve bilgi erişiminde kullanılan daha geniş çevrimiçi değerlendirme yöntemleriyle bağlantı kurmaktadır.
Temel sorular
- Derecelendirme tahmini ile ilk N sıralaması için öneri kalitesi nasıl ölçülmektedir?
- Doğruluk metrikleri tek başına bir öneri sistemini değerlendirmek için neden yetersizdir?
- Çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve kapsama nasıl nicelleştirilmektedir?
- Etkileşim verileri, bilgi sızıntısı (leakage) ve popülerlik yanlılığını önlemek için nasıl bölünmelidir?
- Çevrimdışı, kullanıcı çalışması ve çevrimiçi değerlendirmeler birbirini nasıl tamamlamaktadır?
Anahtar kavramlar
- derecelendirme tahmini doğruluğu (MAE, RMSE)
- ilk N sıralama metrikleri (kesinlik, geri çağırma, nDCG)
- çeşitlilik ve yenilik
- tesadüfi keşif (serendipity)
- katalog kapsamı
- çevrimdışı ve çevrimiçi değerlendirme
- veri bölme ve bilgi sızıntısı (leakage)
- popülerlik yanlılığı
Temel kuramlar
- Doğruluk ve sıralama değerlendirmesi
- Öneri sistemleri, hata ölçütleri kullanılarak derecelendirmeleri ne kadar iyi tahmin ettiklerine göre veya kesinlik, geri çağırma ve normalize edilmiş iskonto edilmiş kümülatif kazanç gibi ilk N ölçütleri kullanılarak öğeleri ne kadar iyi sıraladıklarına göre puanlanmaktadır; ikincisi, önerilerin nasıl tüketildiğiyle daha iyi uyum sağlamaktadır.
- Doğruluk ötesi değerlendirme
- Doğru ancak gereksiz veya bariz öneriler kullanıcıları tatmin etmeyebileceğinden, değerlendirme aynı zamanda çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve kapsamayı da dikkate almakta, öneri kalitesinin çok boyutlu olduğunu kabul etmektedir.
Klinik önem
Sağlam bir değerlendirme, hangi öneri değişikliklerinin uygulanacağını belirlemekte ve yanlış hedefin optimize edilmesine karşı koruma sağlamaktadır. Çeşitlilik ve yenilik gibi doğruluk ötesi kaygılar, kullanıcı memnuniyetini ve etkileşimini doğrudan etkilemekte ve öneri sistemlerindeki filtre balonları ile adalet gibi daha geniş konularla bağlantı kurmaktadır.
Tarihçe
Herlocker ve meslektaşlarının 2004 tarihli makalesi, işbirlikçi filtreleme öneri sistemlerini değerlendirmek için görevleri ve metrikleri açıklığa kavuşturan titiz bir çerçeve ortaya koymuştur. Netflix Ödülü, RMSE tabanlı doğruluk değerlendirmesini popülerleştirmiş, bunun ardından alan, sıralama ve doğruluk ötesi ölçütlere doğru genişlemiş ve değerlendirmenin hedeflenen kullanıcı görevine uygunluğunu vurgulayan el kitabı bölümlerinde pekiştirilmiştir.
Öne çıkan isimler
- Jonathan Herlocker
- Joseph Konstan
- Guy Shani
- Asela Gunawardana
İlgili konular
Temel eserler
- herlocker2004
- shani2011
- ricci2015
Sıkça sorulan sorular
- Bir öneri sistemini değerlendirmek için doğruluk neden yeterli değildir?
- Bir öneri sistemi doğru olabilir ancak yine de faydasız olabilir; örneğin, kullanıcının zaten bildiği öğeleri veya neredeyse aynı öğeleri önerebilir. Çeşitlilik, yenilik, tesadüfi keşif (serendipity) ve kapsama gibi özellikler, doğruluğun gözden kaçırdığı faydalılık yönlerini yakalamaktadır, bu nedenle iyi bir değerlendirme birden fazla boyutu dikkate almaktadır.
- Öneri sistemleri değerlendirmesinde veri bölme neden zordur?
- Öneri verileri zamana göre sıralıdır ve popüler öğelere doğru çarpıktır, bu nedenle basit rastgele bölmeler gelecekteki bilgileri sızdırabilir veya sadece popüler öğeleri önermeyi ödüllendirebilir. Çevrimdışı sonuçların gerçek performansı tahmin edici olmasını sağlamak için dikkatli zaman tabanlı bölmeler ve yanlılık farkında metrikler gerekmektedir.