Обучение ранжированию
Обучение ранжированию применяет машинное обучение для построения ранжирующих функций, которые объединяют множество признаков, обучаясь на размеченных данных релевантности или отзывах пользователей, чтобы упорядочивать документы лучше, чем одна вручную настроенная формула.
Definition
Обучение ранжированию — это использование методов машинного обучения для вывода функции, которая упорядочивает набор документов для запроса по релевантности, обученная на примерах, в которых известна относительная или абсолютная релевантность документов, сформулированная как поточечная регрессия или классификация, попарное обучение предпочтениям или прямая списковая оптимизация.
Scope
Эта тема охватывает подходы к обучению ранжирующих функций для поиска, основанные на контролируемом обучении и обратной связи. Она рассматривает поточечные, попарные и списковые формулировки, использование меток релевантности и данных о кликах, репрезентативные методы, такие как RankNet и ранжирующие деревья с градиентным бустингом, а также оптимизацию метрик, основанных на ранжировании. В ней рассматривается, как ранжировщик обучается и оценивается как модель, в то время как сбор признаков и более широкий конвейер обслуживания рассматриваются в разделе «Ранжирование в веб-поиске».
Core questions
- Как задачи ранжирования формулируются как поточечное, попарное или списковое обучение?
- Какие обучающие сигналы, такие как метки релевантности или данные о кликах, управляют обучением?
- Как можно оптимизировать недифференцируемые метрики, основанные на ранжировании?
- Как множество разнородных признаков объединяются в единый обученный ранжировщик?
- Как данные о кликах вносят смещение и как его можно устранить?
Key concepts
- функция ранжирования
- поточечное / попарное / списковое обучение
- метки релевантности и градуированная релевантность
- клики и неявная обратная связь
- RankNet и деревья с градиентным бустингом
- потери на основе ранжирования и оптимизация метрик
- комбинация признаков
- смещение по позиции
Key theories
- Поточечные, попарные и списковые формулировки
- Ранжирование может быть обучено путем независимого предсказания релевантности каждого документа (поточечное), путем обучения правильному порядку пар документов (попарное) или путем оптимизации потерь по целым спискам результатов (списковое), причем последнее наиболее прямо соответствует метрикам, основанным на ранжировании.
- Обучение на данных о кликах
- Клики пользователей предоставляют обильную, но смещенную неявную обратную связь по релевантности; рассмотрение кликов как относительных предпочтений в списке результатов позволяет обучать ранжирующие функции на основе журналов взаимодействий, а не только на дорогих ручных метках.
Clinical relevance
Обучение ранжированию является стандартным способом, которым современные поисковые и рекомендательные системы комбинируют сигналы, а ранжировщики, обученные с помощью машинного обучения на основе деревьев с градиентным бустингом и нейронных моделей, определяют порядок результатов в основных поисковых системах, поиске в электронной коммерции и ранжировании рекламы.
History
По мере того как веб-поиск накапливал множество сигналов ранжирования, ручная настройка становилась непрактичной, что стимулировало машинное обучение ранжированию. Работа Йоахимса 2002 года показала, что данные о кликах могут обучать ранжировщики; RankNet Бёрджеса и коллег (2005) представил нейронное попарное ранжирование и его потомков LambdaRank и LambdaMART; а обзор Лю 2009 года консолидировал область вокруг поточечных, попарных и списковых парадигм.
Key figures
- Tie-Yan Liu
- Christopher Burges
- Thorsten Joachims
Related topics
Seminal works
- liu2009
- burges2005
- joachims2002
Frequently asked questions
- В чем разница между поточечным, попарным и списковым обучением ранжированию?
- Поточечные методы предсказывают оценку релевантности для каждого документа независимо; попарные методы учатся, какой из двух документов должен ранжироваться выше; списковые методы оптимизируют потери, определенные для всего ранжированного списка. Списковые подходы наиболее тесно соответствуют метрикам на уровне списка, которые действительно важны для пользователей.
- Зачем использовать данные о кликах, если они смещены?
- Клики намного дешевле и многочисленнее, чем ручные оценки релевантности, поэтому они позволяют обучать модели в больших масштабах. Загвоздка заключается в смещении по позиции и представлению, поэтому методы рассматривают клики как относительные предпочтения и все чаще применяют несмещенные или контрфактические корректировки обучения.