Pembelajaran untuk Pemeringkatan (Learning to Rank)
Pembelajaran untuk pemeringkatan menerapkan pembelajaran mesin untuk membangun fungsi pemeringkatan yang menggabungkan banyak fitur, melatih data relevansi berlabel atau umpan balik pengguna untuk mengurutkan dokumen lebih baik daripada formula tunggal yang disetel secara manual.
Definition
Pembelajaran untuk pemeringkatan adalah penggunaan metode pembelajaran mesin untuk menginduksi fungsi yang mengurutkan sekumpulan dokumen untuk suatu kueri berdasarkan relevansi, dilatih dari contoh-contoh di mana relevansi relatif atau absolut dokumen diketahui, diformulasikan sebagai regresi atau klasifikasi pointwise, pembelajaran preferensi pairwise, atau optimasi listwise langsung.
Scope
Topik ini mencakup pendekatan terarah (supervised) dan berbasis umpan balik untuk mempelajari fungsi pemeringkatan untuk pengambilan informasi. Ini membahas formulasi pointwise, pairwise, dan listwise, penggunaan label relevansi dan data clickthrough, metode representatif seperti RankNet dan pohon pemeringkatan yang ditingkatkan gradien, serta optimasi metrik berbasis peringkat. Ini memperlakukan bagaimana pemeringkat dipelajari dan dievaluasi sebagai model, sementara perakitan fitur dan pipeline penyajian yang lebih luas dibahas di bawah pemeringkatan pencarian web.
Core questions
- Bagaimana masalah pemeringkatan dikategorikan sebagai pembelajaran pointwise, pairwise, atau listwise?
- Sinyal pelatihan apa, seperti label relevansi atau data clickthrough, yang mendorong pembelajaran?
- Bagaimana metrik evaluasi berbasis peringkat, yang tidak dapat dibedakan, dapat dioptimalkan?
- Bagaimana banyak fitur heterogen digabungkan menjadi satu pemeringkat yang dipelajari?
- Bagaimana data klik memperkenalkan bias, dan bagaimana hal itu dapat diatasi?
Key concepts
- fungsi pemeringkatan
- pembelajaran pointwise / pairwise / listwise
- label relevansi dan relevansi bergradasi
- clickthrough dan umpan balik implisit
- RankNet dan pohon yang ditingkatkan gradien
- kerugian berbasis peringkat dan optimasi metrik
- kombinasi fitur
- bias posisi
Key theories
- Formulasi pointwise, pairwise, dan listwise
- Pemeringkatan dapat dipelajari dengan memprediksi relevansi setiap dokumen secara independen (pointwise), dengan mempelajari urutan yang benar dari pasangan dokumen (pairwise), atau dengan mengoptimalkan kerugian atas seluruh daftar hasil (listwise), dengan yang terakhir paling langsung selaras dengan metrik berbasis peringkat.
- Belajar dari data clickthrough
- Klik pengguna memberikan umpan balik relevansi implisit yang melimpah tetapi bias; memperlakukan klik sebagai preferensi relatif dalam daftar hasil memungkinkan fungsi pemeringkatan dilatih dari log interaksi daripada hanya label manual yang mahal.
Clinical relevance
Pembelajaran untuk pemeringkatan adalah cara standar sistem pencarian dan rekomendasi modern menggabungkan sinyal, dan pemeringkat yang dipelajari mesin berdasarkan pohon yang ditingkatkan gradien dan model neural mendorong pengurutan hasil mesin pencari web utama, pencarian e-commerce, dan pemeringkatan iklan.
History
Ketika pencarian web mengumpulkan banyak sinyal pemeringkatan, penyetelan manual menjadi tidak praktis, memotivasi pemeringkatan yang dipelajari mesin. Karya Joachims tahun 2002 menunjukkan bahwa data clickthrough dapat melatih pemeringkat; RankNet (2005) oleh Burges dan rekan-rekannya memperkenalkan pemeringkatan pairwise neural dan turunannya LambdaRank dan LambdaMART; dan survei Liu tahun 2009 mengkonsolidasikan bidang ini di sekitar paradigma pointwise, pairwise, dan listwise.
Key figures
- Tie-Yan Liu
- Christopher Burges
- Thorsten Joachims
Related topics
Seminal works
- liu2009
- burges2005
- joachims2002
Frequently asked questions
- Apa perbedaan antara pembelajaran untuk pemeringkatan pointwise, pairwise, dan listwise?
- Metode pointwise memprediksi skor relevansi untuk setiap dokumen secara independen; metode pairwise mempelajari mana dari dua dokumen yang harus memiliki peringkat lebih tinggi; metode listwise mengoptimalkan kerugian yang didefinisikan atas seluruh daftar yang diberi peringkat. Pendekatan listwise paling selaras dengan metrik tingkat daftar yang sebenarnya penting bagi pengguna.
- Mengapa menggunakan data klik padahal ada bias?
- Klik jauh lebih murah dan lebih banyak daripada penilaian relevansi manual, sehingga memungkinkan pelatihan dalam skala besar. Kekurangannya adalah bias posisi dan presentasi, itulah sebabnya metode memperlakukan klik sebagai preferensi relatif dan semakin menerapkan koreksi pembelajaran yang tidak bias atau kontrafaktual.