Olasılık sıralama ilkesi nedir?

Bu ilke, bir geri getirme sisteminin belgeleri sorguya uygunluk olasılıklarının azalan sırasına göre sıralaması durumunda, uygunluk değerlendirmelerinin bağımsız olduğu varsayımı altında, kullanıcı için genel etkinliğin maksimize edildiğini belirtmektedir. Olasılıksal sıralamanın teorik temelini oluşturmaktadır.

BM25, basit varsayımlara rağmen neden bu kadar etkilidir?

BM25, daha basit ağırlıkların gözden kaçırdığı iki ampirik olarak önemli etkiyi yakalar: tekrarlanan terim oluşumlarının azalan getirileri (doygunluk) ve belge uzunluğu için normalleştirme ihtiyacı. Bu düzeltmeler, idf benzeri terim ağırlıklarıyla birleştiğinde, onu oldukça sağlam bir sıralayıcı yapmaktadır.

Olasılıksal Geri Getirme Modelleri

Olasılıksal geri getirme modelleri, terim ağırlıklandırmasını olasılık kuramına dayandırarak, belgeleri bir sorguya uygun olma olasılıklarına göre sıralamaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Olasılıksal bir geri getirme modeli, her belge için belirli bir sorguya uygun olma olasılığını tahmin eder ve belgeleri bu olasılığa göre sıralar; terim ağırlıklarını ise terimlerin uygun belgelerde uygun olmayan belgelere kıyasla ortaya çıkma olasılıklarından türetir.

Kapsam

Bu konu, olasılık kuramı üzerine inşa edilmiş geri getirme modellerini kapsamaktadır: olasılık sıralama ilkesi, ikili bağımsızlık modeli ve uygunluk ağırlıklandırma şeması ile terim sıklığı doygunluğu ve belge uzunluğu normalleştirmesi içeren BM25 sıralama işlevi. Uygunluğun olasılıksal bir olay olarak nasıl modellendiğini, terim ağırlıklarının uygunluk bilgilerinden nasıl tahmin edildiğini ve belirtilen varsayımlar altında ortaya çıkan sıralamaların neden teorik olarak optimal olduğunu ele almaktadır. Üretken dil modelleri ayrı olarak ele alındığından bu kapsamın dışındadır.

Temel sorular

Olasılık sıralama ilkesi, optimal sıralama hakkında neyi ileri sürmektedir?
Terim ağırlıkları, bir terimin uygun belgelerde uygun olmayan belgelere kıyasla ortaya çıkma olasılığından nasıl türetilmektedir?
İkili bağımsızlık modeli hangi bağımsızlık varsayımlarını yapmaktadır?
BM25, terim sıklığı doygunluğunu ve belge uzunluğunu nasıl hesaba katmaktadır?
Uygunluk geri bildirimi, olasılık tahminlerini nasıl iyileştirebilmektedir?

Anahtar kavramlar

uygunluk olasılığı
olasılık sıralama ilkesi
ikili bağımsızlık modeli
uygunluk ağırlıklandırması
BM25 / Okapi BM25
terim sıklığı doygunluğu
belge uzunluğu normalleştirmesi
uygunluk geri bildirimi

Temel kuramlar

Olasılık sıralama ilkesi: Belgelerin uygunluk olasılıklarının azalan sırasına göre sıralanması, bağımsız uygunluk değerlendirmeleri varsayımı altında kullanıcı için en iyi genel etkinliği sağlamakta ve olasılıksal sıralama için teorik gerekçeyi sunmaktadır.
İkili bağımsızlık modeli: Belgeleri ikili terim-varlığı vektörleri olarak ele alarak ve uygunluk verildiğinde terimlerin bağımsız olarak ortaya çıktığını varsayarak, model her terim için uygun belgelerde uygun olmayan belgelere kıyasla ortaya çıkma oranlarından bir uygunluk ağırlığı türetmektedir.
BM25 sıralama işlevi: Olasılıksal uygunluk çerçevesinin pratik puanlama işlevi, uygunluk ağırlıklandırmasına doğrusal olmayan terim sıklığı doygunluğu ve belge uzunluğu normalleştirmesi ekleyerek, önde gelen bir temel olmaya devam eden sağlam, ayarlanabilir bir sıralayıcı üretmektedir.

Klinik önem

BM25, üretim arama sistemlerinde ve açık kaynaklı arama motorlarında en yaygın kullanılan sıralama işlevlerinden biridir ve nöral sıralayıcıların karşılaştırıldığı standart güçlü bir temel teşkil etmektedir. Olasılıksal uygunluk ağırlıklandırması ayrıca, kullanıcı değerlendirmelerinden sonuçları iyileştiren uygunluk geri bildirim özelliklerinin de temelini oluşturmaktadır.

Tarihçe

Olasılıksal bilgi geri getirme (IR), Robertson ve Spärck Jones'un 1976 uygunluk ağırlıklandırma kuramı ve van Rijsbergen'in temel ders kitabı ile sağlam bir zemine oturtulmuştur. 1980'ler ve 1990'lar boyunca City University London'daki Okapi projesi bu fikirleri, TREC değerlendirmelerinde baskın olduğunu kanıtlayan BM25 işlevine dönüştürerek geliştirmiştir. 2009'daki olasılıksal uygunluk çerçevesi araştırması bu aileyi pekiştirmiştir.

Öne çıkan isimler

Stephen E. Robertson
Karen Spärck Jones
C. J. van Rijsbergen
Hugo Zaragoza

İlgili konular

Temel eserler

robertson1976
robertson2009
vanrijsbergen1979

Sıkça sorulan sorular

Olasılık sıralama ilkesi nedir?: Bu ilke, bir geri getirme sisteminin belgeleri sorguya uygunluk olasılıklarının azalan sırasına göre sıralaması durumunda, uygunluk değerlendirmelerinin bağımsız olduğu varsayımı altında, kullanıcı için genel etkinliğin maksimize edildiğini belirtmektedir. Olasılıksal sıralamanın teorik temelini oluşturmaktadır.
BM25, basit varsayımlara rağmen neden bu kadar etkilidir?: BM25, daha basit ağırlıkların gözden kaçırdığı iki ampirik olarak önemli etkiyi yakalar: tekrarlanan terim oluşumlarının azalan getirileri (doygunluk) ve belge uzunluğu için normalleştirme ihtiyacı. Bu düzeltmeler, idf benzeri terim ağırlıklarıyla birleştiğinde, onu oldukça sağlam bir sıralayıcı yapmaktadır.