Bir geri getirme modeli ile bir sıralama fonksiyonu arasındaki fark nedir?

Bir geri getirme modeli, belgelerin ve sorguların nasıl temsil edildiğini ve ilginin nasıl kavramsallaştırıldığını belirten genel çerçevedir; sıralama fonksiyonu ise modelin ürettiği, vektör uzayı modelindeki kosinüs benzerliği veya olasılıksal ailedeki BM25 formülü gibi somut puanlama formülüdür.

Nöral modeller varken BM25 neden hala kullanılmaktadır?

BM25 hızlıdır, eğitim verisi gerektirmez, çok az parametreye sahiptir ve nöral sıralayıcıların sıklıkla karşılaştırıldığı ve birleştirildiği güçlü bir temel model olmaya devam etmektedir. Birçok modern sistem, daha maliyetli bir modelin daha sonra yeniden sıraladığı bir başlangıç aday kümesini geri getirmek için BM25 kullanmaktadır.

Geri Getirme Modelleri

Geri getirme modelleri, bir belgenin bir sorguyla eşleşmesinin ne anlama geldiğini ve bir bilgi ihtiyacına yanıt olarak belgelerin nasıl puanlandığını ve sıralandığını tanımlayan resmi çerçevelerdir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Bir geri getirme modeli, belge ve sorgu temsillerinin, bir sorgu verildiğinde her belgeye temel bilgi ihtiyacına olan tahmini ilgisini yansıtan bir puan atayan bir sıralama veya eşleştirme fonksiyonuyla birlikte hassas bir tanımlamasıdır.

Kapsam

Bu alan, sorguları belgelere karşı eşleştirmek ve sonuçları sıralamak için kullanılan başlıca matematiksel modelleri kapsar: küme-teorik Boole ve genişletilmiş Boole geri getirme, tf-idf gibi terim ağırlıklandırmasıyla cebirsel vektör uzayı modeli, ikili bağımsızlık modeli ve BM25 dahil olmak üzere olasılıksal modeller ve geri getirme için istatistiksel dil modelleri. İlginin nasıl resmileştirildiğini, terim ağırlıklarının nasıl atandığını ve bir benzerlik veya olasılık puanının nasıl bir sıralama oluşturduğunu ele almaktadır. Geri getirmeyi verimli kılan veri yapılarını (indeksleme ve sorgu işleme kapsamında ele alınmaktadır) ve bir modelin ne kadar iyi performans gösterdiğinin ampirik ölçümünü (değerlendirme kapsamında ele alınmaktadır) hariç tutar.

Alt konular

Temel sorular

Bir model, belge ve sorguların hangi resmi temsilini varsaymaktadır?
Bir model, bir temsili bir ilgi puanına veya bir eşleştirme kararına nasıl dönüştürmektedir?
Bireysel terimler, bir belge içindeki ve bir koleksiyon genelindeki önemlerini yansıtacak şekilde nasıl ağırlıklandırılmaktadır?
Bir model, ilgideki doğal belirsizliği nasıl hesaba katmaktadır?
Bir model hangi varsayımları (terim bağımsızlığı gibi) yapmaktadır ve bunlar ne zaman geçerliliğini yitirmektedir?

Anahtar kavramlar

ilgi
terim ağırlıklandırması ve tf-idf
Boole geri getirme
vektör uzayı ve kosinüs benzerliği
olasılık sıralama prensibi
ikili bağımsızlık modeli ve BM25
sorgu olabilirlik ve düzeltme (smoothing)
terim bağımsızlığı varsayımı
sıralama fonksiyonu

Temel kuramlar

Vektör uzayı modeli: Belgeler ve sorgular, genellikle tf-idf ağırlıklarıyla yüksek boyutlu bir terim uzayında vektörler olarak temsil edilmekte ve ilgi, sorgu ile belge vektörleri arasındaki açının kosinüsü gibi geometrik bir benzerlik ile tahmin edilmektedir.
Olasılık sıralama prensibi ve olasılıksal geri getirme: Belgelerin bir sorguya olan tahmini ilgi olasılıklarına göre sıralanması, belirtilen varsayımlar altında geri getirme etkinliğini optimize etmektedir; ikili bağımsızlık modeli ve onun pratik uzantısı BM25, bunu ilgi olasılıklarından türetilen terim ağırlıklandırmasıyla işlevselleştirmektedir.
Geri getirmeye dil modelleme yaklaşımı: Her belge, üretken bir dil modelinden bir örnek olarak ele alınmakta ve belgeler, modellerinin sorguyu üretme olasılığına göre sıralanmaktadır; görülmeyen sorgu terimlerini ele almak için düzeltme (smoothing) kullanılmaktadır.

Klinik önem

Geri getirme modelleri, kütüphane kataloglarından ve kurumsal aramalardan web arama motorlarına, soru yanıtlama ve geri getirme destekli üretimin aday sıralama aşamalarına kadar esasen her arama sisteminin puanlama çekirdeğini oluşturmaktadır. Özellikle tf-idf ve BM25, güçlü ve yaygın olarak kullanılan temel modeller olmaya devam etmektedir.

Tarihçe

Vektör uzayı modeli, 1960'lar ve 1970'lerde Salton'ın SMART projesinden ortaya çıkarak geri getirmeye cebirsel bir temel sağlamıştır. Paralel olarak, Robertson ve Spärck Jones 1970'lerde ilgi ağırlıklandırmasının olasılıksal bir kuramını geliştirmiş, bu daha sonra BM25 sıralama fonksiyonuna dönüşmüştür. Ponte ve Croft tarafından 1998'de tanıtılan dil modelleme yaklaşımı, geri getirmeyi istatistiksel üretim olarak yeniden çerçevelemiş ve modelleme araç setini genişletmiştir.

Öne çıkan isimler

Gerard Salton
Stephen E. Robertson
Karen Spärck Jones
W. Bruce Croft
C. J. van Rijsbergen

İlgili konular

Temel eserler

salton1975
robertson1976
ponte1998
manning2008

Sıkça sorulan sorular

Bir geri getirme modeli ile bir sıralama fonksiyonu arasındaki fark nedir?: Bir geri getirme modeli, belgelerin ve sorguların nasıl temsil edildiğini ve ilginin nasıl kavramsallaştırıldığını belirten genel çerçevedir; sıralama fonksiyonu ise modelin ürettiği, vektör uzayı modelindeki kosinüs benzerliği veya olasılıksal ailedeki BM25 formülü gibi somut puanlama formülüdür.
Nöral modeller varken BM25 neden hala kullanılmaktadır?: BM25 hızlıdır, eğitim verisi gerektirmez, çok az parametreye sahiptir ve nöral sıralayıcıların sıklıkla karşılaştırıldığı ve birleştirildiği güçlü bir temel model olmaya devam etmektedir. Birçok modern sistem, daha maliyetli bir modelin daha sonra yeniden sıraladığı bir başlangıç aday kümesini geri getirmek için BM25 kullanmaktadır.