Học cách xếp hạng
Học cách xếp hạng áp dụng học máy để xây dựng các hàm xếp hạng kết hợp nhiều đặc trưng, huấn luyện trên dữ liệu mức độ liên quan được gán nhãn hoặc phản hồi của người dùng để sắp xếp tài liệu tốt hơn một công thức thủ công đơn lẻ.
Definition
Học cách xếp hạng là việc sử dụng các phương pháp học máy để tạo ra một hàm sắp xếp một tập hợp tài liệu cho một truy vấn theo mức độ liên quan, được huấn luyện từ các ví dụ trong đó mức độ liên quan tương đối hoặc tuyệt đối của tài liệu được biết, được xây dựng dưới dạng hồi quy hoặc phân loại pointwise, học ưu tiên pairwise, hoặc tối ưu hóa listwise trực tiếp.
Scope
Chủ đề này bao gồm các phương pháp tiếp cận có giám sát và dựa trên phản hồi để học các hàm xếp hạng cho việc truy xuất. Nó đề cập đến các công thức pointwise, pairwise và listwise, việc sử dụng nhãn mức độ liên quan và dữ liệu clickthrough, các phương pháp đại diện như RankNet và cây xếp hạng tăng cường gradient, và việc tối ưu hóa các số liệu dựa trên thứ hạng. Nó xử lý cách một bộ xếp hạng được học và đánh giá như một mô hình, trong khi việc tập hợp các đặc trưng và quy trình phục vụ rộng hơn được đề cập trong xếp hạng tìm kiếm web.
Core questions
- Các vấn đề xếp hạng được chuyển đổi thành học pointwise, pairwise hoặc listwise như thế nào?
- Những tín hiệu huấn luyện nào, chẳng hạn như nhãn mức độ liên quan hoặc dữ liệu clickthrough, thúc đẩy quá trình học?
- Làm thế nào để tối ưu hóa các số liệu đánh giá dựa trên thứ hạng, vốn không thể phân biệt được?
- Làm thế nào để nhiều đặc trưng không đồng nhất được kết hợp thành một bộ xếp hạng được học duy nhất?
- Dữ liệu nhấp chuột đưa ra sai lệch như thế nào và làm thế nào để giải quyết nó?
Key concepts
- hàm xếp hạng
- học pointwise / pairwise / listwise
- nhãn mức độ liên quan và mức độ liên quan được phân cấp
- clickthrough và phản hồi ngầm
- RankNet và cây tăng cường gradient
- tổn thất dựa trên thứ hạng và tối ưu hóa số liệu
- kết hợp đặc trưng
- sai lệch vị trí
Key theories
- Các công thức pointwise, pairwise và listwise
- Xếp hạng có thể được học bằng cách dự đoán mức độ liên quan của từng tài liệu một cách độc lập (pointwise), bằng cách học cách sắp xếp đúng của các cặp tài liệu (pairwise), hoặc bằng cách tối ưu hóa một hàm tổn thất trên toàn bộ danh sách kết quả (listwise), với cách tiếp cận sau cùng phù hợp trực tiếp nhất với các số liệu dựa trên thứ hạng.
- Học từ dữ liệu clickthrough
- Số lượt nhấp của người dùng cung cấp phản hồi mức độ liên quan ngầm dồi dào nhưng có sai lệch; việc coi số lượt nhấp là các ưu tiên tương đối trong danh sách kết quả cho phép các hàm xếp hạng được huấn luyện từ nhật ký tương tác thay vì chỉ các nhãn thủ công tốn kém.
Clinical relevance
Học cách xếp hạng là cách tiêu chuẩn mà các hệ thống tìm kiếm và đề xuất hiện đại kết hợp các tín hiệu, và các bộ xếp hạng được học bằng máy dựa trên cây tăng cường gradient và các mô hình thần kinh điều khiển việc sắp xếp kết quả của các công cụ tìm kiếm web lớn, tìm kiếm thương mại điện tử và xếp hạng quảng cáo.
History
Khi tìm kiếm web tích lũy nhiều tín hiệu xếp hạng, việc điều chỉnh thủ công trở nên không thực tế, thúc đẩy việc xếp hạng được học bằng máy. Công trình của Joachims năm 2002 đã chỉ ra rằng dữ liệu clickthrough có thể huấn luyện các bộ xếp hạng; RankNet của Burges và các đồng nghiệp (2005) đã giới thiệu xếp hạng pairwise thần kinh và các hậu duệ của nó là LambdaRank và LambdaMART; và khảo sát của Liu năm 2009 đã củng cố lĩnh vực này xung quanh các mô hình pointwise, pairwise và listwise.
Key figures
- Tie-Yan Liu
- Christopher Burges
- Thorsten Joachims
Related topics
Seminal works
- liu2009
- burges2005
- joachims2002
Frequently asked questions
- Sự khác biệt giữa học cách xếp hạng pointwise, pairwise và listwise là gì?
- Các phương pháp pointwise dự đoán điểm mức độ liên quan cho từng tài liệu một cách độc lập; các phương pháp pairwise học cách tài liệu nào trong hai tài liệu nên xếp hạng cao hơn; các phương pháp listwise tối ưu hóa một hàm tổn thất được định nghĩa trên toàn bộ danh sách được xếp hạng. Các cách tiếp cận listwise phù hợp nhất với các số liệu cấp danh sách mà người dùng thực sự quan tâm.
- Tại sao lại sử dụng dữ liệu nhấp chuột khi nó có sai lệch?
- Số lượt nhấp rẻ hơn và nhiều hơn đáng kể so với các đánh giá mức độ liên quan thủ công, vì vậy chúng cho phép huấn luyện ở quy mô lớn. Vấn đề là sai lệch vị trí và cách trình bày, đó là lý do tại sao các phương pháp coi số lượt nhấp là các ưu tiên tương đối và ngày càng áp dụng các hiệu chỉnh học tập không thiên vị hoặc phản thực tế.