Vektör Uzay Modeli
Vektör uzay modeli, belgeleri ve sorguları yüksek boyutlu bir uzayda terim ağırlıklarının vektörleri olarak temsil eder ve belgeleri sorguya olan geometrik benzerliklerine göre sıralar.
Tanım
Vektör uzay modeli, belgeleri ve sorguları bileşenleri terim ağırlıkları olan vektörler olarak gömer ve alaka düzeyini bir vektör benzerlik ölçüsüyle, en yaygın olarak uzunluk normalizasyonundan sonra belge ve sorgu vektörleri arasındaki açının kosinüsü ile tahmin eder.
Kapsam
Bu konu, her terimin bir boyut tanımladığı ve belgelerin ile sorguların ağırlıklı vektörler haline geldiği cebirsel erişim modelini kapsamaktadır. Terim ağırlıklandırma şemalarını, özellikle terim sıklığı (term frequency), ters belge sıklığı (inverse document frequency) ve bunların tf-idf çarpımını, uzunluk normalizasyonunu ve belgeleri puanlamak için kullanılan kosinüs benzerliğini ele almaktadır. Alaka düzeyinin terim uzayında yakınlık olarak geometrik sezgisini ve sıralı erişimin pratik puanlamasını incelerken, ağırlıkların olasılıksal gerekçelendirmesini olasılıksal modeller konusuna bırakmaktadır.
Temel sorular
- Belgeler ve sorgular, ortak bir terim sözlüğü üzerinde nasıl vektörlere dönüştürülür?
- Terim sıklığını ters belge sıklığı ile birleştirmek neden faydalı ağırlıklar üretir?
- Kosinüs benzerliği, belge uzunluğunu kontrol ederken yakınlığı nasıl ölçer?
- Bir belgenin bir sorguyla alakalı olması geometrik olarak ne anlama gelir?
- Terimleri bağımsız ortogonal boyutlar olarak ele almanın sınırlamaları nelerdir?
Anahtar kavramlar
- terim-belge vektörü
- terim sıklığı (tf)
- ters belge sıklığı (idf)
- tf-idf ağırlıklandırması
- kosinüs benzerliği
- uzunluk normalizasyonu
- yüksek boyutlu terim uzayı
- kelime torbası varsayımı (bag-of-words assumption)
Temel kuramlar
- Vektör temsili ve kosinüs benzerliği
- Belgeleri ve sorguları terim uzayında vektörler olarak temsil etmek, aralarındaki açının kosinüsü ile alaka düzeyini tahmin etmeye olanak tanır; bu, uzunluğu normalleştirir ve terim dağılımı sorguyla uyumlu olan belgeleri ödüllendirir.
- tf-idf terim ağırlıklandırması
- Bir terimin ağırlığı, bir belgedeki sıklığıyla artar, ancak terimin koleksiyon genelindeki yaygınlığıyla (ters belge sıklığı ile yakalanan) azaltılır, böylece ayırt edici terimler puanlamaya hakim olur.
Klinik önem
Vektör uzay modeli ve tf-idf ağırlıklandırması, çok çeşitli arama ve metin analizi sistemlerinin temelini oluşturmaktadır ve varsayılan bir puanlama tabanı olarak kalmaktadır. Aynı vektör temsili, öğrenilmiş vektörlerin el yapımı terim ağırlıklarının yerini aldığı modern yoğun gömme erişiminin (dense embedding retrieval) kavramsal atasıdır.
Tarihçe
Salton, vektör tabanlı indekslemeyi SMART sistemi aracılığıyla tanıtmış ve bu, 1975'te Wong ve Yang ile birlikte yayımlanan makalede resmileştirilmiştir. Spärck Jones'un 1972'deki terim özgüllüğünün istatistiksel yorumu, ters belge sıklığı bileşenini sağlamış ve Salton ile Buckley'nin 1988'deki çalışması tf-idf ağırlıklandırma varyantlarını sistemleştirmiştir. Model, onlarca yıl deneysel bilgi erişimine (IR) hakim olmuş ve metnin bilişim genelinde sayısal olarak nasıl temsil edildiğini şekillendirmiştir.
Öne çıkan isimler
- Gerard Salton
- Karen Spärck Jones
- Chris Buckley
İlgili konular
Temel eserler
- salton1975
- sparckjones1972
- salton1988
Sıkça sorulan sorular
- Neden Öklid uzaklığı yerine kosinüs benzerliği kullanılır?
- Kosinüs benzerliği, belge ve sorgu vektörlerinin büyüklüğünden ziyade yönünü karşılaştırır, bu da onu belge uzunluğuna karşı sağlam kılar: aynı konuda uzun bir belge ile kısa bir belge hala yüksek puan alabilirken, ham uzaklık daha uzun olanı cezalandırırdı.
- Ters belge sıklığı ne işe yarar?
- Ters belge sıklığı, birçok belgede görünen terimlerin (örneğin yaygın kelimeler) ağırlığını azaltır ve nadir, ayırt edici terimleri güçlendirir. Bu, her yerde bulunan kelimelerin benzerlik puanlarına hakim olmasını engeller ve eşleştirmeyi içerik taşıyan terimlere odaklar.