Web Araması ve Bağlantı Analizi
Web araması ve bağlantı analizi, hiperlink yapısının ek bir yetki kanıtı sağladığı ve sıralamanın çok sayıda özelliği büyük ölçekte birleştirdiği Dünya Çapında Ağ (World Wide Web) üzerindeki bilgi erişimini ele almaktadır.
Tanım
Web araması ve bağlantı analizi, hiperlinkli web koleksiyonları üzerindeki bilgi erişiminin incelenmesidir; metinsel alaka düzeyini, bağlantı yapısından türetilen grafik tabanlı yetki sinyalleriyle ve çok sayıda özellik üzerinden makine öğrenimi tabanlı sıralama ile açık web'in ölçeğinde ve düşmanca koşulları altında birleştirmektedir.
Kapsam
Bu alan, web ölçeğindeki bilgi erişimine özgü bileşenleri kapsamaktadır: web taraması ve web'in bağlantı yapısı, hiperlinkleri onay olarak kullanan PageRank ve HITS gibi bağlantı analizi algoritmaları, çok sayıda sıralama özelliğini birleştiren sıralama öğrenme (learning-to-rank) yöntemleri ve web arama sıralama süreçlerinin tasarımı. Yalnızca metinsel kanıtlara dayanarak tek tek belgeleri puanlayan temel bilgi erişim modellerinden farklı olarak, web'in hiperlinkli, düşmanca ve devasa yapısının bilgi erişimini nasıl değiştirdiğini ele almaktadır.
Alt konular
Temel sorular
- Web nasıl taranır ve bağlantı grafiği nasıl yakalanır?
- Hiperlink yapısı bir sayfanın önemini veya yetkisini nasıl gösterebilir?
- PageRank ve HITS, bağlantı tabanlı yetkiyi modellemede nasıl farklılık gösterir?
- Çok sayıda heterojen sıralama sinyali tek bir sıralamaya nasıl birleştirilir?
- Sıralama, web ölçeğinde spam ve düşmanca manipülasyonla nasıl başa çıkar?
Anahtar kavramlar
- web taraması
- web bağlantı grafiği
- PageRank
- HITS (hub'lar ve yetkililer)
- çapa metni (anchor text)
- sıralama öğrenme (learning to rank)
- sıralama özellikleri ve sinyalleri
- web spamı ve düşmanca IR (Bilgi Erişimi)
Temel kuramlar
- Onay olarak Hiperlinkler
- Bir sayfadan diğerine verilen bir bağlantı, bir güven oyu olarak okunabilir; bu nedenle bağlantı grafiği, saf metin eşleştirmenin göz ardı ettiği sayfa önemi ve yetkisi hakkında kanıt taşımaktadır.
- Rastgele Yürüyüş Yetki Ölçütü Olarak PageRank
- PageRank, her sayfaya, bağlantıları takip eden ve ara sıra ışınlanan rastgele bir sörfçü altında uzun vadeli ziyaret olasılığına eşit bir puan atamakta ve tüm bağlantı grafiğinden türetilen sorgudan bağımsız bir önem ölçütü sağlamaktadır.
- Çok Sayıda Özellik Üzerinden Makine Öğrenimi Tabanlı Sıralama
- Web sıralaması, metinsel alaka düzeyi, bağlantı tabanlı yetki ve davranışsal özellikler dahil olmak üzere yüzlerce sinyali, etiketli verilerden bir sıralama fonksiyonu öğrenerek birleştirmekte ve tek elle ayarlanmış formüllerin yerini almaktadır.
Klinik önem
Bu alan, milyarlarca kullanıcı için genel web'e erişimi organize eden ticari web arama motorlarının temelini oluşturmaktadır. Bağlantı analizi, çevrimiçi yetkinin nasıl ölçüldüğünü yeniden şekillendirmiş ve sıralama öğrenme (learning-to-rank) süreçleri, arama ve öneri sistemlerinin sinyalleri sıralamalara nasıl birleştirdiğinin merkezinde yer almaktadır.
Tarihçe
Web IR (Bilgi Erişimi), 1990'ların ortalarında web'in dizin tabanlı navigasyonu aşmasıyla ortaya çıkmıştır. Kleinberg'in HITS'i ile Brin ve Page'in PageRank'i, her ikisi de 1998 ve 1999 civarında, hiperlink yapısının sayfaları yetkiye göre sıralayabileceğini göstermiş ve PageRank, büyük ölçekli arama motorlarının yükselişini desteklemiştir. 2000'li yıllar boyunca, sıralama öğrenme (learning-to-rank) yöntemleri, artan sayıda sıralama sinyalini birleştirmiştir.
Öne çıkan isimler
- Sergey Brin
- Larry Page
- Jon Kleinberg
- Prabhakar Raghavan
İlgili konular
Temel eserler
- brin1998
- page1999
- kleinberg1999
Sıkça sorulan sorular
- Web neden kapalı bir koleksiyondan farklı bilgi erişim yöntemlerine ihtiyaç duyar?
- Web devasadır, sürekli değişmektedir, hiperlinklidir ve düşmancadır; sayfalar aktif olarak daha yüksek sıralamaya çalışmaktadır. Bu koşullar, kapalı koleksiyonlarda kullanılan metinsel eşleştirmenin üzerine tarama, bağlantı tabanlı yetki sinyalleri, spam direnci ve büyük ölçekli öğrenilmiş sıralama eklemektedir.
- Modern sıralama göz önüne alındığında bağlantı analizi hala önemli midir?
- Bağlantı tabanlı yetki, modern sıralamada yüzlerce sinyalden biri olmaya devam etmektedir; bu sıralama artık öğrenilmiş modellere ve davranışsal ve içerik özelliklerine büyük ölçüde dayanmaktadır. PageRank tarzı fikirler, öneri ve atıf analizi dahil olmak üzere, önemliliğin grafikler aracılığıyla nasıl yayıldığını hala bilgilendirmektedir.