ScholarGate
Ассистент

Тестовые коллекции и оценки релевантности

Тестовая коллекция объединяет набор документов, набор запросов и экспертные оценки релевантности, что позволяет воспроизводимо оценивать и сравнивать поисковые системы.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Тестовая коллекция — это фиксированный набор данных, включающий корпус документов, набор запросов или формулировок тем, описывающих информационные потребности, и оценки релевантности, указывающие, какие документы релевантны каждой теме, что в совокупности обеспечивает воспроизводимое измерение эффективности поиска.

Scope

Эта тема охватывает создание и использование многократно применимых тестовых коллекций информационного поиска (ИП) в соответствии с парадигмой Крэнфилда: корпус документов, формулировки тем, определяющие информационные потребности, и оценки релевантности (qrels), которые фиксируют, какие документы релевантны каждой теме. В ней рассматриваются градуированная и бинарная релевантность, согласованность оценок, возможность повторного использования коллекций для новых систем и роль крупномасштабных инициатив, таких как TREC. Она не включает метрики, вычисляемые на основе оценок, и процедуры объединения (pooling), используемые для их сбора, которые являются смежными темами.

Core questions

  • Каковы три компонента тестовой коллекции в стиле Крэнфилда?
  • Чем формулировки информационных потребностей в виде тем отличаются от коротких запросов, подаваемых в системы?
  • Как определяется и записывается релевантность, и когда используется градуированная релевантность?
  • Насколько согласованы экспертные оценки релевантности, и влияет ли несогласованность на сравнения?
  • Что делает тестовую коллекцию пригодной для повторного использования системами, которые не участвовали в ее создании?

Key concepts

  • корпус документов
  • формулировка темы / информационной потребности
  • оценки релевантности (qrels)
  • бинарная vs. градуированная релевантность
  • согласованность оценщиков
  • повторное использование коллекции
  • тестовые коллекции TREC
  • эталонные данные для оценки

Key theories

Парадигма Крэнфилда
Фиксация документов, запросов и оценок релевантности создает контролируемую лабораторную среду, в которой ранжированный вывод любой системы может быть оценен по отношению к оценкам, что делает эксперименты по поиску воспроизводимыми и сравнимыми.
Устойчивость сравнений к расхождениям в оценках
Хотя эксперты-оценщики расходятся во мнениях относительно отдельных решений о релевантности, исследования показывают, что относительное ранжирование систем в коллекции в значительной степени стабильно среди оценщиков, что подтверждает обоснованность сравнений тестовых коллекций.

Clinical relevance

Общие тестовые коллекции являются общепринятой основой исследований в области информационного поиска, позволяя исследователям по всему миру сравнивать системы по идентичным задачам и воспроизводить результаты. Коллекции, полученные в ходе оценочных кампаний, таких как TREC, CLEF и NTCIR, определили десятилетия прогресса и остаются стандартными эталонами для новых методов поиска.

History

Методология тестовых коллекций зародилась с экспериментами Клевердона в Крэнфилде в 1960-х годах, которые сравнивали подходы к индексированию с использованием фиксированных запросов и оценок. Запуск TREC в 1992 году масштабировал эту парадигму до крупных, реалистичных коллекций и множества задач, создав стандартизированные, многократно используемые коллекции, которые лежат в основе современной оценки информационного поиска.

Key figures

  • Cyril Cleverdon
  • Ellen M. Voorhees
  • Donna Harman

Related topics

Seminal works

  • cleverdon1967
  • voorhees2005

Frequently asked questions

Что такое «qrels»?
Qrels (query relevance judgments) — это записи, которые для каждой темы в тестовой коллекции указывают, какие документы были признаны релевантными и с какой степенью. Инструменты оценки сравнивают ранжированный вывод системы с qrels для вычисления метрик эффективности.
Обесценивают ли разногласия между экспертами тестовые коллекции?
Оценщики действительно расходятся во мнениях по отдельным документам, но исследования неоднократно показывали, что относительный порядок систем остается стабильным среди разных оценщиков. Таким образом, хотя абсолютные оценки меняются, выводы о том, какая система лучше, как правило, надежны.

Methods for this concept

Related concepts