Почему одной точности недостаточно для оценки поисковой системы?

Точность измеряет, сколько извлеченных результатов релевантны, но игнорирует, сколько релевантных документов было пропущено, что отражает полнота. Система может иметь идеальную точность, возвращая один очевидно релевантный результат, но пропуская многие другие, поэтому эти две метрики обычно рассматриваются вместе или объединяются в рангово-чувствительные меры.

Какое преимущество nDCG предлагает по сравнению со средней средней точностью?

nDCG использует градуированную релевантность, различая высокорелевантные и умеренно релевантные результаты, и явно дисконтирует выигрыши на более низких позициях. Это делает ее хорошо подходящей для веб-поиска, где пользователи больше всего заботятся о самых верхних результатах, а релевантность не является просто да или нет.

Метрики эффективности информационного поиска

Метрики эффективности преобразуют ранжированный список результатов в число, отражающее, насколько хорошо он удовлетворяет информационную потребность, что позволяет сравнивать системы и усреднять их по запросам.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Метрика эффективности информационного поиска — это функция, которая сопоставляет ранжированный вывод системы для одного или нескольких запросов, вместе с оценками релевантности, с оценкой, количественно определяющей качество поиска, при этом различные метрики акцентируют внимание на полноте, ранней точности или градуированном выигрыше на верхних позициях.

Scope

Эта тема охватывает меры, используемые для оценки результатов поиска: точность и полнота, основанные на множествах, и их комбинация F-мера; рангово-чувствительные меры, включая точность на k, среднюю точность и среднюю среднюю точность; обратный ранг; и меры, основанные на выигрыше, такие как дисконтированный кумулятивный выигрыш и его нормализованная форма. В ней рассматривается, что каждая метрика вознаграждает, как метрики обрабатывают градуированную релевантность и неполные оценки, а также как агрегируются и проверяются на значимость оценки. Она исключает коллекции и оценки, которые предоставляют данные о релевантности.

Core questions

Как точность и полнота отражают взаимодополняющие аспекты качества поиска?
Почему необходимы рангово-чувствительные метрики, когда пользователи просматривают результаты сверху вниз?
Как средняя точность суммирует ранжированный список в одно число?
Как метрики, основанные на выигрыше, такие как nDCG, используют градуированную релевантность и ранговое дисконтирование?
Как метрики зависят от неполных оценок релевантности?

Key concepts

точность и полнота
F-мера
точность на k
средняя точность и MAP
средний обратный ранг (MRR)
дисконтированный кумулятивный выигрыш (DCG / nDCG)
градуированная релевантность
робастные метрики для неполных оценок (bpref)

Key theories

Точность, полнота и средняя точность: Точность и полнота измеряют долю релевантных извлеченных элементов и долю извлеченных релевантных элементов; средняя точность интегрирует точность по уровням полноты для одного запроса, а ее среднее значение по запросам (MAP) является стандартным обобщением для ранжированного поиска.
Дисконтированный кумулятивный выигрыш: Оценка, основанная на выигрыше, присваивает каждому результату выигрыш в соответствии с его градуированной релевантностью и дисконтирует выигрыши на более низких позициях, затем нормализует по отношению к идеальному ранжированию, давая nDCG, которая вознаграждает размещение высокорелевантных элементов ближе к началу.
Оценка с неполными оценками: Когда не все документы оценены, наивные метрики могут быть смещены, что мотивирует использование таких мер, как bpref и выведенная AP, которые более устойчивы к неоцененным документам в больших или объединенных коллекциях.

Clinical relevance

Метрики эффективности являются мерилом, по которому исследования и индустрия информационного поиска измеряют прогресс и выбирают между системами. nDCG и MAP, в частности, являются рутинными в оценочных кампаниях и автономном тестировании производства, а выбор метрики определяет, какое поведение система ранжирования оптимизирована для производства.

History

Точность и полнота датируются самыми ранними экспериментами по информационному поиску, а средняя точность стала основным инструментом оценки TREC ad hoc. Меры кумулятивного выигрыша Ярвелина и Кекеляйнена 2002 года ввели градуированную релевантность, рангово-дисконтированную оценку, дав nDCG, которая стала доминирующей для ранжирования в стиле веб-поиска. Работа над неполными оценками привела к созданию робастных метрик для больших коллекций.

Key figures

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

Seminal works

manning2008
jarvelin2002
buckley2004

Frequently asked questions

Почему одной точности недостаточно для оценки поисковой системы?: Точность измеряет, сколько извлеченных результатов релевантны, но игнорирует, сколько релевантных документов было пропущено, что отражает полнота. Система может иметь идеальную точность, возвращая один очевидно релевантный результат, но пропуская многие другие, поэтому эти две метрики обычно рассматриваются вместе или объединяются в рангово-чувствительные меры.
Какое преимущество nDCG предлагает по сравнению со средней средней точностью?: nDCG использует градуированную релевантность, различая высокорелевантные и умеренно релевантные результаты, и явно дисконтирует выигрыши на более низких позициях. Это делает ее хорошо подходящей для веб-поиска, где пользователи больше всего заботятся о самых верхних результатах, а релевантность не является просто да или нет.