Bir arama sistemini değerlendirmek için neden tek başına kesinlik (precision) yeterli değildir?

Kesinlik (precision), erişilen sonuçların ne kadarının ilgili olduğunu ölçer ancak geri çağırmanın yakaladığı, kaç tane ilgili belgenin gözden kaçırıldığını göz ardı eder. Bir sistem, açıkça ilgili tek bir sonuç döndürerek mükemmel kesinliğe sahip olabilirken, diğer birçok ilgili belgeyi kaçırabilir; bu nedenle, bu iki ölçüt genellikle birlikte değerlendirilir veya sıra duyarlı ölçütlerde birleştirilir.

nDCG, ortalama ortalama kesinliğe (mean average precision) göre hangi avantajı sunmaktadır?

nDCG, dereceli alaka düzeyini (graded relevance) kullanır, çok alakalı sonuçları marjinal olarak alakalı sonuçlardan ayırır ve alt sıralardaki kazançları açıkça indirger. Bu durum, kullanıcıların en üstteki sonuçları en çok önemsediği ve alaka düzeyinin sadece evet veya hayır olmadığı web araması için oldukça uygun olmasını sağlamaktadır.

Bilgi Erişimi Etkinlik Metrikleri

Etkinlik metrikleri, sıralanmış bir sonuç listesini, bir bilgi ihtiyacını ne kadar iyi karşıladığını yansıtan bir sayıya dönüştürerek, sistemlerin sorgular arasında karşılaştırılmasını ve ortalamasının alınmasını sağlamaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Bir bilgi erişimi etkinlik metriği, bir sistemin bir veya daha fazla sorgu için sıralanmış çıktısını, alaka düzeyi yargılarıyla birlikte, erişim kalitesini nicelendiren bir puana dönüştüren bir fonksiyondur; farklı metrikler geri çağırmayı, erken kesinliği veya üst sıralardaki dereceli kazancı vurgulamaktadır.

Kapsam

Bu konu, bilgi erişim çıktısını puanlamak için kullanılan ölçütleri kapsamaktadır: küme tabanlı kesinlik (precision) ve geri çağırma (recall) ile bunların F-ölçüsü kombinasyonu, k'deki kesinlik (precision at k), ortalama kesinlik (average precision) ve ortalama ortalama kesinlik (mean average precision), karşılıklı sıra (reciprocal rank) ve indirgenmiş kümülatif kazanç (discounted cumulative gain) ile bunun normalleştirilmiş formu gibi sıra duyarlı ölçütler. Her bir metriğin neyi ödüllendirdiği, metriklerin dereceli alaka düzeyini (graded relevance) ve eksik yargıları (incomplete judgments) nasıl ele aldığı ve puanların nasıl toplandığı ve anlamlılık açısından nasıl test edildiği ele alınmaktadır. Alaka düzeyi verilerini sağlayan koleksiyonlar ve yargılar bu kapsamın dışındadır.

Temel sorular

Kesinlik (precision) ve geri çağırma (recall), bilgi erişim kalitesinin tamamlayıcı yönlerini nasıl yakalamaktadır?
Kullanıcılar sonuçları yukarıdan aşağıya tararken neden sıra duyarlı metrikler gereklidir?
Ortalama kesinlik (average precision), sıralanmış bir listeyi tek bir sayıya nasıl özetlemektedir?
nDCG gibi kazanç tabanlı metrikler, dereceli alaka düzeyini (graded relevance) ve sıra indirgemeyi (rank discounting) nasıl kullanmaktadır?
Metrikler, eksik alaka düzeyi yargılarından nasıl etkilenmektedir?

Anahtar kavramlar

kesinlik (precision) ve geri çağırma (recall)
F-ölçüsü
k'deki kesinlik (precision at k)
ortalama kesinlik (average precision) ve MAP
ortalama karşılıklı sıra (MRR)
indirgenmiş kümülatif kazanç (DCG / nDCG)
dereceli alaka düzeyi (graded relevance)
eksik yargılar için sağlam metrikler (bpref)

Temel kuramlar

Kesinlik (precision), geri çağırma (recall) ve ortalama kesinlik (average precision): Kesinlik (precision) ve geri çağırma (recall), erişilen öğelerin ilgili olan kısmını ve ilgili öğelerin erişilen kısmını ölçmektedir; ortalama kesinlik (average precision), tek bir sorgu için geri çağırma düzeyleri boyunca kesinliği entegre etmekte olup, sorgular üzerindeki ortalaması (MAP) sıralı erişim için standart bir özettir.
İndirgenmiş kümülatif kazanç: Kazanç tabanlı değerlendirme, her sonuca dereceli alaka düzeyine göre bir kazanç atamakta ve alt sıralardaki kazançları indirgemekte, ardından ideal sıralamaya göre normalleştirmektedir; bu da çok alakalı öğeleri üst sıralara yerleştirmeyi ödüllendiren nDCG'yi sağlamaktadır.
Eksik yargılarla değerlendirme: Tüm belgeler yargılanmadığında, basit metrikler yanlı olabilir; bu durum, büyük veya havuzlanmış koleksiyonlardaki yargılanmamış belgelere karşı daha sağlam olan bpref ve çıkarımsal AP (inferred AP) gibi ölçütleri motive etmektedir.

Klinik önem

Etkinlik metrikleri, bilgi erişimi araştırmalarının ve endüstrisinin ilerlemeyi ölçtüğü ve sistemler arasında seçim yaptığı bir ölçüttür. Özellikle nDCG ve MAP, değerlendirme kampanyalarında ve üretim dışı testlerde rutin olarak kullanılmakta olup, metrik seçimi bir sıralama sisteminin optimize edildiği davranışları şekillendirmektedir.

Tarihçe

Kesinlik (precision) ve geri çağırma (recall), en eski bilgi erişimi deneylerine dayanmakta olup, ortalama kesinlik (average precision) TREC ad hoc değerlendirmesinin temel aracı haline gelmiştir. Järvelin ve Kekäläinen'in 2002 tarihli kümülatif kazanç ölçütleri, dereceli alaka düzeyini (graded-relevance) ve sıra indirgemeli değerlendirmeyi (rank-discounted evaluation) tanıtmış, bu da web tarzı sıralama için baskın hale gelen nDCG'yi ortaya çıkarmıştır. Eksik yargılar üzerine yapılan çalışmalar, büyük koleksiyonlar için sağlam metrikler üretmiştir.

Öne çıkan isimler

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

İlgili konular

Temel eserler

manning2008
jarvelin2002
buckley2004

Sıkça sorulan sorular

Bir arama sistemini değerlendirmek için neden tek başına kesinlik (precision) yeterli değildir?: Kesinlik (precision), erişilen sonuçların ne kadarının ilgili olduğunu ölçer ancak geri çağırmanın yakaladığı, kaç tane ilgili belgenin gözden kaçırıldığını göz ardı eder. Bir sistem, açıkça ilgili tek bir sonuç döndürerek mükemmel kesinliğe sahip olabilirken, diğer birçok ilgili belgeyi kaçırabilir; bu nedenle, bu iki ölçüt genellikle birlikte değerlendirilir veya sıra duyarlı ölçütlerde birleştirilir.
nDCG, ortalama ortalama kesinliğe (mean average precision) göre hangi avantajı sunmaktadır?: nDCG, dereceli alaka düzeyini (graded relevance) kullanır, çok alakalı sonuçları marjinal olarak alakalı sonuçlardan ayırır ve alt sıralardaki kazançları açıkça indirger. Bu durum, kullanıcıların en üstteki sonuçları en çok önemsediği ve alaka düzeyinin sadece evet veya hayır olmadığı web araması için oldukça uygun olmasını sağlamaktadır.