Sıralama Öğrenimi
Sıralama öğrenimi, birçok özelliği bir araya getiren sıralama fonksiyonları oluşturmak için makine öğrenimini uygulayan bir yöntemdir. Bu yöntem, etiketli alaka düzeyi verileri veya kullanıcı geri bildirimleri üzerinde eğitim alarak belgeleri tek bir elle ayarlanmış formülden daha iyi bir şekilde sıralamayı amaçlar.
Tanım
Sıralama öğrenimi, bir sorgu için bir belge kümesini alaka düzeyine göre sıralayan bir fonksiyonu türetmek amacıyla makine öğrenimi yöntemlerinin kullanılmasıdır. Bu yöntem, belgelerin göreceli veya mutlak alaka düzeyinin bilindiği örneklerden eğitilir ve noktasal regresyon veya sınıflandırma, ikili tercih öğrenimi veya doğrudan liste bazlı optimizasyon olarak formüle edilmektedir.
Kapsam
Bu konu, geri çağırma için sıralama fonksiyonlarını öğrenmeye yönelik denetimli ve geri bildirim odaklı yaklaşımları kapsamaktadır. Noktasal (pointwise), ikili (pairwise) ve liste bazlı (listwise) formülasyonları, alaka düzeyi etiketlerinin ve tıklama verilerinin kullanımını, RankNet ve gradyan artırılmış sıralama ağaçları gibi temsili yöntemleri ve sıralama tabanlı metriklerin optimizasyonunu ele almaktadır. Bir sıralayıcının model olarak nasıl öğrenildiği ve değerlendirildiği incelenirken, özelliklerin bir araya getirilmesi ve daha geniş hizmet sunum hattı web arama sıralaması başlığı altında ele alınmaktadır.
Temel sorular
- Sıralama problemleri noktasal, ikili veya liste bazlı öğrenme olarak nasıl ele alınmaktadır?
- Alaka düzeyi etiketleri veya tıklama verileri gibi hangi eğitim sinyalleri öğrenmeyi yönlendirmektedir?
- Türevlenemeyen sıralama tabanlı değerlendirme metrikleri nasıl optimize edilebilir?
- Birçok heterojen özellik tek bir öğrenilmiş sıralayıcıda nasıl birleştirilmektedir?
- Tıklama verileri nasıl yanlılık (bias) oluşturur ve bu durum nasıl ele alınabilir?
Anahtar kavramlar
- sıralama fonksiyonu
- noktasal / ikili / liste bazlı öğrenme
- alaka düzeyi etiketleri ve dereceli alaka düzeyi
- tıklama ve örtük geri bildirim
- RankNet ve gradyan artırılmış ağaçlar
- sıralama tabanlı kayıp ve metrik optimizasyonu
- özellik birleşimi
- konum yanlılığı
Temel kuramlar
- Noktasal, ikili ve liste bazlı formülasyonlar
- Sıralama, her belgenin alaka düzeyini bağımsız olarak tahmin ederek (noktasal), belge çiftlerinin doğru sıralamalarını öğrenerek (ikili) veya tüm sonuç listeleri üzerindeki bir kaybı optimize ederek (liste bazlı) öğrenilebilir. Liste bazlı yaklaşımlar, sıralama tabanlı metriklerle en doğrudan şekilde uyum sağlamaktadır.
- Tıklama verilerinden öğrenme
- Kullanıcı tıklamaları, bol miktarda ancak yanlı (biased) örtük alaka düzeyi geri bildirimi sağlamaktadır; tıklamaları bir sonuç listesi içindeki göreceli tercihler olarak ele almak, sıralama fonksiyonlarının yalnızca pahalı manuel etiketler yerine etkileşim günlüklerinden eğitilmesine olanak tanımaktadır.
Klinik önem
Sıralama öğrenimi, modern arama ve öneri sistemlerinin sinyalleri birleştirmesinde standart bir yöntemdir. Gradyan artırılmış ağaçlara ve sinirsel modellere dayalı makine öğrenimi tabanlı sıralayıcılar, başlıca web arama motorlarının, e-ticaret aramalarının ve reklam sıralamasının sonuç düzenini belirlemektedir.
Tarihçe
Web aramasında birçok sıralama sinyali biriktikçe, elle ayarlama pratik olmaktan çıkmış ve makine öğrenimi tabanlı sıralamayı teşvik etmiştir. Joachims'in 2002 tarihli çalışması, tıklama verilerinin sıralayıcıları eğitebileceğini göstermiştir; Burges ve meslektaşlarının RankNet (2005) çalışması, sinirsel ikili sıralamayı ve onun türevleri olan LambdaRank ve LambdaMART'ı tanıtmıştır; Liu'nun 2009 tarihli araştırması ise alanı noktasal, ikili ve liste bazlı paradigmalar etrafında birleştirmiştir.
Öne çıkan isimler
- Tie-Yan Liu
- Christopher Burges
- Thorsten Joachims
İlgili konular
Temel eserler
- liu2009
- burges2005
- joachims2002
Sıkça sorulan sorular
- Noktasal, ikili ve liste bazlı sıralama öğrenimi arasındaki fark nedir?
- Noktasal yöntemler, her belge için bağımsız olarak bir alaka düzeyi puanı tahmin eder; ikili yöntemler, iki belgeden hangisinin daha yüksek sıralanması gerektiğini öğrenir; liste bazlı yöntemler ise sıralanmış bir listenin tamamı üzerinde tanımlanan bir kaybı optimize eder. Liste bazlı yaklaşımlar, kullanıcıların gerçekten önemsediği liste düzeyindeki metriklerle en yakından uyum sağlamaktadır.
- Tıklama verileri yanlı (biased) olmasına rağmen neden kullanılmaktadır?
- Tıklamalar, manuel alaka düzeyi değerlendirmelerinden çok daha ucuz ve bol miktardadır, bu nedenle büyük ölçekte eğitime olanak tanır. Buradaki sorun, konum ve sunum yanlılığıdır; bu yüzden yöntemler tıklamaları göreceli tercihler olarak ele almakta ve giderek daha fazla yanlılık giderme veya karşı olgusal öğrenme düzeltmeleri uygulamaktadır.