Neden Öklid uzaklığı yerine kosinüs benzerliği kullanılır?

Kosinüs benzerliği, belge ve sorgu vektörlerinin büyüklüğünden ziyade yönünü karşılaştırır, bu da onu belge uzunluğuna karşı sağlam kılar: aynı konuda uzun bir belge ile kısa bir belge hala yüksek puan alabilirken, ham uzaklık daha uzun olanı cezalandırırdı.

Ters belge sıklığı ne işe yarar?

Ters belge sıklığı, birçok belgede görünen terimlerin (örneğin yaygın kelimeler) ağırlığını azaltır ve nadir, ayırt edici terimleri güçlendirir. Bu, her yerde bulunan kelimelerin benzerlik puanlarına hakim olmasını engeller ve eşleştirmeyi içerik taşıyan terimlere odaklar.

Vektör Uzay Modeli

Vektör uzay modeli, belgeleri ve sorguları yüksek boyutlu bir uzayda terim ağırlıklarının vektörleri olarak temsil eder ve belgeleri sorguya olan geometrik benzerliklerine göre sıralar.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Vektör uzay modeli, belgeleri ve sorguları bileşenleri terim ağırlıkları olan vektörler olarak gömer ve alaka düzeyini bir vektör benzerlik ölçüsüyle, en yaygın olarak uzunluk normalizasyonundan sonra belge ve sorgu vektörleri arasındaki açının kosinüsü ile tahmin eder.

Kapsam

Bu konu, her terimin bir boyut tanımladığı ve belgelerin ile sorguların ağırlıklı vektörler haline geldiği cebirsel erişim modelini kapsamaktadır. Terim ağırlıklandırma şemalarını, özellikle terim sıklığı (term frequency), ters belge sıklığı (inverse document frequency) ve bunların tf-idf çarpımını, uzunluk normalizasyonunu ve belgeleri puanlamak için kullanılan kosinüs benzerliğini ele almaktadır. Alaka düzeyinin terim uzayında yakınlık olarak geometrik sezgisini ve sıralı erişimin pratik puanlamasını incelerken, ağırlıkların olasılıksal gerekçelendirmesini olasılıksal modeller konusuna bırakmaktadır.

Temel sorular

Belgeler ve sorgular, ortak bir terim sözlüğü üzerinde nasıl vektörlere dönüştürülür?
Terim sıklığını ters belge sıklığı ile birleştirmek neden faydalı ağırlıklar üretir?
Kosinüs benzerliği, belge uzunluğunu kontrol ederken yakınlığı nasıl ölçer?
Bir belgenin bir sorguyla alakalı olması geometrik olarak ne anlama gelir?
Terimleri bağımsız ortogonal boyutlar olarak ele almanın sınırlamaları nelerdir?

Anahtar kavramlar

terim-belge vektörü
terim sıklığı (tf)
ters belge sıklığı (idf)
tf-idf ağırlıklandırması
kosinüs benzerliği
uzunluk normalizasyonu
yüksek boyutlu terim uzayı
kelime torbası varsayımı (bag-of-words assumption)

Temel kuramlar

Vektör temsili ve kosinüs benzerliği: Belgeleri ve sorguları terim uzayında vektörler olarak temsil etmek, aralarındaki açının kosinüsü ile alaka düzeyini tahmin etmeye olanak tanır; bu, uzunluğu normalleştirir ve terim dağılımı sorguyla uyumlu olan belgeleri ödüllendirir.
tf-idf terim ağırlıklandırması: Bir terimin ağırlığı, bir belgedeki sıklığıyla artar, ancak terimin koleksiyon genelindeki yaygınlığıyla (ters belge sıklığı ile yakalanan) azaltılır, böylece ayırt edici terimler puanlamaya hakim olur.

Klinik önem

Vektör uzay modeli ve tf-idf ağırlıklandırması, çok çeşitli arama ve metin analizi sistemlerinin temelini oluşturmaktadır ve varsayılan bir puanlama tabanı olarak kalmaktadır. Aynı vektör temsili, öğrenilmiş vektörlerin el yapımı terim ağırlıklarının yerini aldığı modern yoğun gömme erişiminin (dense embedding retrieval) kavramsal atasıdır.

Tarihçe

Salton, vektör tabanlı indekslemeyi SMART sistemi aracılığıyla tanıtmış ve bu, 1975'te Wong ve Yang ile birlikte yayımlanan makalede resmileştirilmiştir. Spärck Jones'un 1972'deki terim özgüllüğünün istatistiksel yorumu, ters belge sıklığı bileşenini sağlamış ve Salton ile Buckley'nin 1988'deki çalışması tf-idf ağırlıklandırma varyantlarını sistemleştirmiştir. Model, onlarca yıl deneysel bilgi erişimine (IR) hakim olmuş ve metnin bilişim genelinde sayısal olarak nasıl temsil edildiğini şekillendirmiştir.

Öne çıkan isimler

Gerard Salton
Karen Spärck Jones
Chris Buckley

İlgili konular

Temel eserler

salton1975
sparckjones1972
salton1988

Sıkça sorulan sorular

Neden Öklid uzaklığı yerine kosinüs benzerliği kullanılır?: Kosinüs benzerliği, belge ve sorgu vektörlerinin büyüklüğünden ziyade yönünü karşılaştırır, bu da onu belge uzunluğuna karşı sağlam kılar: aynı konuda uzun bir belge ile kısa bir belge hala yüksek puan alabilirken, ham uzaklık daha uzun olanı cezalandırırdı.
Ters belge sıklığı ne işe yarar?: Ters belge sıklığı, birçok belgede görünen terimlerin (örneğin yaygın kelimeler) ağırlığını azaltır ve nadir, ayırt edici terimleri güçlendirir. Bu, her yerde bulunan kelimelerin benzerlik puanlarına hakim olmasını engeller ve eşleştirmeyi içerik taşıyan terimlere odaklar.