Почему бы не оценивать каждый документ в коллекции?

Большие коллекции содержат миллионы документов, поэтому оценка всех из них по каждой теме нецелесообразна. Пулинг оценивает только те документы, которые высоко ранжируются участвующими системами, что позволяет охватить большинство релевантных документов, сохраняя при этом управляемые усилия по оценке.

Каков риск трактовки неоцененных документов как нерелевантных?

Позднее разработанная система может найти релевантные документы, которые никогда не были в пуле и, следовательно, были учтены как нерелевантные, несправедливо занижая ее измеренный балл. Эта предвзятость пула является причиной использования более глубоких, более разнообразных пулов и метрик, устойчивых к неполным оценкам, при повторном использовании коллекций.

Пулинг и оценка релевантности

Пулинг — это метод, который делает возможной крупномасштабную оценку информационного поиска (ИП) путем суждения только тех документов, которые участвующие системы ранжируют высоко, а не каждого документа в коллекции.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Пулинг — это стратегия выборки для оценки релевантности, при которой документы, ранжированные наиболее высоко из набора результатов поиска, предоставленных различными системами, объединяются (с удалением дубликатов) в пул, который оценивают люди-асессоры, при этом документы вне пула традиционно считаются нерелевантными.

Scope

Эта тема охватывает, как эффективно собираются оценки релевантности для больших коллекций, в основном метод пулинга, используемый в TREC и аналогичных кампаниях, где документы, ранжированные высоко многими системами, объединяются в пул, который оценивают асессоры. В ней рассматриваются глубина пула, трактовка неоцененных документов как нерелевантных, возможность повторного использования и потенциальная предвзятость пулированных коллекций, а также усилия и согласованность асессоров. Она исключает метрики, рассчитываемые впоследствии, и определение самой коллекции.

Core questions

Как пулинг сокращает количество документов, которые необходимо оценить?
Как выбирается глубина пула и как она влияет на охват релевантных документов?
Почему неоцененные документы обычно считаются нерелевантными, и какую предвзятость это может внести?
Насколько пригодны для повторного использования пулированные коллекции для систем, которые не участвовали в формировании пула?
Как управляются усилия, согласованность и качество работы асессоров?

Key concepts

метод пулинга
глубина пула
вклад систем
допущение «неоцененные как нерелевантные»
предвзятость пула и возможность повторного использования
согласованность асессоров
неполная информация о релевантности
краудсорсинговая оценка релевантности

Key theories

Пулинг для масштабируемой оценки: Оценивая только объединение высокоранжированных документов из множества разнообразных систем, пулинг делает практичным оценку больших коллекций, при этом находя большинство релевантных документов, которые могла бы выявить любая разумная система.
Проблемы надежности и возможности повторного использования: Пулинг может недопредставлять релевантные документы, найденные только будущими системами, что поднимает вопросы о предвзятости и возможности повторного использования, которые мотивируют создание более глубоких пулов, привлечение разнообразных участников и использование надежных метрик для неполных оценок.

Clinical relevance

Пулинг делает общие, многократно используемые тестовые коллекции доступными, и он лежит в основе оценок, полученных за десятилетия бенчмаркинговых исследований. Понимание его допущений важно при повторном использовании старых коллекций для оценки новых методов, особенно нейронных систем, которые могут выявлять релевантные документы, никогда не оценивавшиеся в исходных пулах.

History

Пулинг был принят TREC с самого начала в 1992 году, чтобы сделать оценку больших коллекций управляемой. Анализ Зобеля 1998 года исследовал надежность и возможность повторного использования пулированных коллекций, а последующая работа по неполным оценкам привела к созданию метрик и более глубоких или интеллектуальных стратегий пулинга для снижения предвзятости по мере развития коллекций и популяций систем.

Key figures

Ellen M. Voorhees
Justin Zobel
Chris Buckley

Seminal works

voorhees2005
zobel1998
buckley2004

Frequently asked questions

Почему бы не оценивать каждый документ в коллекции?: Большие коллекции содержат миллионы документов, поэтому оценка всех из них по каждой теме нецелесообразна. Пулинг оценивает только те документы, которые высоко ранжируются участвующими системами, что позволяет охватить большинство релевантных документов, сохраняя при этом управляемые усилия по оценке.
Каков риск трактовки неоцененных документов как нерелевантных?: Позднее разработанная система может найти релевантные документы, которые никогда не были в пуле и, следовательно, были учтены как нерелевантные, несправедливо занижая ее измеренный балл. Эта предвзятость пула является причиной использования более глубоких, более разнообразных пулов и метрик, устойчивых к неполным оценкам, при повторном использовании коллекций.