ScholarGate
Asistan

Web Arama Sıralaması

Web arama sıralaması, bir sorgu için web sayfalarını metinsel, bağlantı tabanlı ve davranışsal sinyalleri çok aşamalı bir boru hattı (pipeline) aracılığıyla birleştirerek sıralama sürecidir ve bu süreç aynı zamanda manipülasyona karşı dirençli olmalıdır.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Web arama sıralaması, bir sorgu için web sayfalarının sıralanmasında birçok alaka düzeyi ve kalite sinyalinin birleştirilmesidir; bu süreç genellikle, verimli bir modelle aday kümesini getiren ve ardından daha pahalı öğrenilmiş modellerle yeniden sıralayan çok aşamalı bir boru hattı olarak gerçekleştirilmektedir. Bu süreç, daha üst sıralarda yer almaya çalışan içeriklerden gelen sürekli düşmanca baskı altında yürütülmektedir.

Kapsam

Bu konu, bir web arama motorunun nihai sıralanmış sonuçlarını nasıl ürettiğini ele almaktadır: dayandığı sinyaller (metinsel alaka düzeyi, bağlantı metni (anchor text), bağlantı tabanlı yetki, güncellik ve davranışsal veriler), adayları uygun maliyetle getiren ve daha zengin modellerle yeniden sıralayan çok aşamalı mimari ve web spam'i ile arama motoru manipülasyonunun düşmanca boyutu. Konu, tek bir bileşeni izole bir şekilde ele almak yerine, geri getirme modellerini, bağlantı analizini ve sıralama öğrenimini işleyen bir sıralama boru hattına entegre etmektedir.

Temel sorular

  • Bir sayfanın sıralamasına hangi sinyaller katkıda bulunur ve bunlar nasıl birleştirilir?
  • Sıralama neden çok aşamalı bir 'getir-sonra-yeniden-sırala' boru hattı olarak düzenlenmektedir?
  • Bağlantı metni (anchor text) ve bağlantı tabanlı yetki, sayfa içi metni nasıl tamamlamaktadır?
  • Arama motorları web spam'ini ve manipülasyonu nasıl tespit edip düşürmektedir?
  • Güncellik ve kullanıcı davranış sinyalleri nasıl dahil edilmektedir?

Anahtar kavramlar

  • sıralama sinyalleri ve özellikleri
  • bağlantı metni (anchor text)
  • bağlantı tabanlı yetki
  • çok aşamalı geri getirme ve yeniden sıralama
  • güncellik sinyalleri
  • davranışsal / tıklama sinyalleri
  • web spam'i (bağlantı çiftlikleri, gizleme (cloaking), anahtar kelime doldurma)
  • düşmanca bilgi erişimi

Temel kuramlar

Çok aşamalı 'getir-sonra-yeniden-sırala' boru hattı
Zengin sıralama modellerinin her belgeye uygulanması çok maliyetli olduğundan, web araması önce BM25 gibi verimli bir modelle yönetilebilir bir aday kümesini getirmekte ve ardından bu adayları giderek daha pahalı öğrenilmiş modellerle yeniden sıralamaktadır.
Düşmanca bilgi erişimi ve web spam'i
Daha yüksek sıralamanın ticari değeri olduğundan, içerik anahtar kelime doldurma, bağlantı çiftlikleri ve gizleme (cloaking) yoluyla sıralamayı manipüle etmek için aktif olarak tasarlanmaktadır; bu nedenle sıralama, spam tespiti ve sağlamlığı birinci sınıf endişeler olarak içermelidir.

Klinik önem

Sıralama kalitesi, milyarlarca kullanıcı için ticari web aramasının kullanışlılığını ve yayıncılar için içeriğin görünürlüğünü belirlemektedir; bu durum arama motoru optimizasyonu endüstrisinin ortaya çıkmasına neden olmaktadır. Burada geliştirilen 'getir-sonra-yeniden-sırala' (retrieve-then-rerank) modeli ve spam'e karşı direnç teknikleri, e-ticaret, uygulama ve kurumsal arama alanlarında yeniden kullanılmaktadır.

Tarihçe

Erken dönem web arama sıralaması, metin alaka düzeyini 1998 civarında tanıtılan yeni bağlantı tabanlı sinyallerle harmanlamıştır. Manipülasyon arttıkça, 2000'li yılların ortalarında web spam taksonomileri ve güven yayılımı gibi çalışmalarla düşmanca bilgi erişimi ortaya çıkmıştır. Sıralama boru hatları, öğrenilmiş modelleri ve davranışsal sinyalleri istikrarlı bir şekilde ekleyerek günümüzde kullanılan çok aşamalı mimarilere evrilmiştir.

Öne çıkan isimler

  • Sergey Brin
  • Larry Page
  • Zoltán Gyöngyi
  • Hector García-Molina

İlgili konular

Temel eserler

  • brin1998
  • gyongyi2005
  • croft2010

Sıkça sorulan sorular

Arama motorları neden çok aşamalı sıralama yapmaktadır?
En doğru sıralama modellerini dizindeki her sayfaya uygulamak çok yavaş olacaktır. Ucuz bir ilk aşama, birkaç yüz veya bin umut vadeden adayı getirmekte ve ardışık olarak daha zengin modeller, kaliteyi gecikme ve maliyete karşı dengeleyerek bu daha küçük kümeyi yeniden sıralamaktadır.
Düşmanca bilgi erişimi nedir?
Bu, web spam'i, bağlantı çiftlikleri ve gizleme (cloaking) gibi, içeriğin kazanç elde etmek amacıyla sıralamayı aktif olarak manipüle etmeye çalıştığı ortamlarda geri getirmenin incelenmesidir. Sıralama sistemleri, sonuçları güvenilir tutmak için spam tespiti, güven yayılımı ve sağlamlık önlemleriyle yanıt vermektedir.

Bu kavram için yöntemler

İlgili kavramlar