ScholarGate
Asistan

Olasılıksal Geri Getirme Modelleri

Olasılıksal geri getirme modelleri, terim ağırlıklandırmasını olasılık kuramına dayandırarak, belgeleri bir sorguya uygun olma olasılıklarına göre sıralamaktadır.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Olasılıksal bir geri getirme modeli, her belge için belirli bir sorguya uygun olma olasılığını tahmin eder ve belgeleri bu olasılığa göre sıralar; terim ağırlıklarını ise terimlerin uygun belgelerde uygun olmayan belgelere kıyasla ortaya çıkma olasılıklarından türetir.

Kapsam

Bu konu, olasılık kuramı üzerine inşa edilmiş geri getirme modellerini kapsamaktadır: olasılık sıralama ilkesi, ikili bağımsızlık modeli ve uygunluk ağırlıklandırma şeması ile terim sıklığı doygunluğu ve belge uzunluğu normalleştirmesi içeren BM25 sıralama işlevi. Uygunluğun olasılıksal bir olay olarak nasıl modellendiğini, terim ağırlıklarının uygunluk bilgilerinden nasıl tahmin edildiğini ve belirtilen varsayımlar altında ortaya çıkan sıralamaların neden teorik olarak optimal olduğunu ele almaktadır. Üretken dil modelleri ayrı olarak ele alındığından bu kapsamın dışındadır.

Temel sorular

  • Olasılık sıralama ilkesi, optimal sıralama hakkında neyi ileri sürmektedir?
  • Terim ağırlıkları, bir terimin uygun belgelerde uygun olmayan belgelere kıyasla ortaya çıkma olasılığından nasıl türetilmektedir?
  • İkili bağımsızlık modeli hangi bağımsızlık varsayımlarını yapmaktadır?
  • BM25, terim sıklığı doygunluğunu ve belge uzunluğunu nasıl hesaba katmaktadır?
  • Uygunluk geri bildirimi, olasılık tahminlerini nasıl iyileştirebilmektedir?

Anahtar kavramlar

  • uygunluk olasılığı
  • olasılık sıralama ilkesi
  • ikili bağımsızlık modeli
  • uygunluk ağırlıklandırması
  • BM25 / Okapi BM25
  • terim sıklığı doygunluğu
  • belge uzunluğu normalleştirmesi
  • uygunluk geri bildirimi

Temel kuramlar

Olasılık sıralama ilkesi
Belgelerin uygunluk olasılıklarının azalan sırasına göre sıralanması, bağımsız uygunluk değerlendirmeleri varsayımı altında kullanıcı için en iyi genel etkinliği sağlamakta ve olasılıksal sıralama için teorik gerekçeyi sunmaktadır.
İkili bağımsızlık modeli
Belgeleri ikili terim-varlığı vektörleri olarak ele alarak ve uygunluk verildiğinde terimlerin bağımsız olarak ortaya çıktığını varsayarak, model her terim için uygun belgelerde uygun olmayan belgelere kıyasla ortaya çıkma oranlarından bir uygunluk ağırlığı türetmektedir.
BM25 sıralama işlevi
Olasılıksal uygunluk çerçevesinin pratik puanlama işlevi, uygunluk ağırlıklandırmasına doğrusal olmayan terim sıklığı doygunluğu ve belge uzunluğu normalleştirmesi ekleyerek, önde gelen bir temel olmaya devam eden sağlam, ayarlanabilir bir sıralayıcı üretmektedir.

Klinik önem

BM25, üretim arama sistemlerinde ve açık kaynaklı arama motorlarında en yaygın kullanılan sıralama işlevlerinden biridir ve nöral sıralayıcıların karşılaştırıldığı standart güçlü bir temel teşkil etmektedir. Olasılıksal uygunluk ağırlıklandırması ayrıca, kullanıcı değerlendirmelerinden sonuçları iyileştiren uygunluk geri bildirim özelliklerinin de temelini oluşturmaktadır.

Tarihçe

Olasılıksal bilgi geri getirme (IR), Robertson ve Spärck Jones'un 1976 uygunluk ağırlıklandırma kuramı ve van Rijsbergen'in temel ders kitabı ile sağlam bir zemine oturtulmuştur. 1980'ler ve 1990'lar boyunca City University London'daki Okapi projesi bu fikirleri, TREC değerlendirmelerinde baskın olduğunu kanıtlayan BM25 işlevine dönüştürerek geliştirmiştir. 2009'daki olasılıksal uygunluk çerçevesi araştırması bu aileyi pekiştirmiştir.

Öne çıkan isimler

  • Stephen E. Robertson
  • Karen Spärck Jones
  • C. J. van Rijsbergen
  • Hugo Zaragoza

İlgili konular

Temel eserler

  • robertson1976
  • robertson2009
  • vanrijsbergen1979

Sıkça sorulan sorular

Olasılık sıralama ilkesi nedir?
Bu ilke, bir geri getirme sisteminin belgeleri sorguya uygunluk olasılıklarının azalan sırasına göre sıralaması durumunda, uygunluk değerlendirmelerinin bağımsız olduğu varsayımı altında, kullanıcı için genel etkinliğin maksimize edildiğini belirtmektedir. Olasılıksal sıralamanın teorik temelini oluşturmaktadır.
BM25, basit varsayımlara rağmen neden bu kadar etkilidir?
BM25, daha basit ağırlıkların gözden kaçırdığı iki ampirik olarak önemli etkiyi yakalar: tekrarlanan terim oluşumlarının azalan getirileri (doygunluk) ve belge uzunluğu için normalleştirme ihtiyacı. Bu düzeltmeler, idf benzeri terim ağırlıklarıyla birleştiğinde, onu oldukça sağlam bir sıralayıcı yapmaktadır.

Bu kavram için yöntemler

İlgili kavramlar