Тестовые коллекции и оценки релевантности
Тестовая коллекция объединяет набор документов, набор запросов и экспертные оценки релевантности, что позволяет воспроизводимо оценивать и сравнивать поисковые системы.
Definition
Тестовая коллекция — это фиксированный набор данных, включающий корпус документов, набор запросов или формулировок тем, описывающих информационные потребности, и оценки релевантности, указывающие, какие документы релевантны каждой теме, что в совокупности обеспечивает воспроизводимое измерение эффективности поиска.
Scope
Эта тема охватывает создание и использование многократно применимых тестовых коллекций информационного поиска (ИП) в соответствии с парадигмой Крэнфилда: корпус документов, формулировки тем, определяющие информационные потребности, и оценки релевантности (qrels), которые фиксируют, какие документы релевантны каждой теме. В ней рассматриваются градуированная и бинарная релевантность, согласованность оценок, возможность повторного использования коллекций для новых систем и роль крупномасштабных инициатив, таких как TREC. Она не включает метрики, вычисляемые на основе оценок, и процедуры объединения (pooling), используемые для их сбора, которые являются смежными темами.
Core questions
- Каковы три компонента тестовой коллекции в стиле Крэнфилда?
- Чем формулировки информационных потребностей в виде тем отличаются от коротких запросов, подаваемых в системы?
- Как определяется и записывается релевантность, и когда используется градуированная релевантность?
- Насколько согласованы экспертные оценки релевантности, и влияет ли несогласованность на сравнения?
- Что делает тестовую коллекцию пригодной для повторного использования системами, которые не участвовали в ее создании?
Key concepts
- корпус документов
- формулировка темы / информационной потребности
- оценки релевантности (qrels)
- бинарная vs. градуированная релевантность
- согласованность оценщиков
- повторное использование коллекции
- тестовые коллекции TREC
- эталонные данные для оценки
Key theories
- Парадигма Крэнфилда
- Фиксация документов, запросов и оценок релевантности создает контролируемую лабораторную среду, в которой ранжированный вывод любой системы может быть оценен по отношению к оценкам, что делает эксперименты по поиску воспроизводимыми и сравнимыми.
- Устойчивость сравнений к расхождениям в оценках
- Хотя эксперты-оценщики расходятся во мнениях относительно отдельных решений о релевантности, исследования показывают, что относительное ранжирование систем в коллекции в значительной степени стабильно среди оценщиков, что подтверждает обоснованность сравнений тестовых коллекций.
Clinical relevance
Общие тестовые коллекции являются общепринятой основой исследований в области информационного поиска, позволяя исследователям по всему миру сравнивать системы по идентичным задачам и воспроизводить результаты. Коллекции, полученные в ходе оценочных кампаний, таких как TREC, CLEF и NTCIR, определили десятилетия прогресса и остаются стандартными эталонами для новых методов поиска.
History
Методология тестовых коллекций зародилась с экспериментами Клевердона в Крэнфилде в 1960-х годах, которые сравнивали подходы к индексированию с использованием фиксированных запросов и оценок. Запуск TREC в 1992 году масштабировал эту парадигму до крупных, реалистичных коллекций и множества задач, создав стандартизированные, многократно используемые коллекции, которые лежат в основе современной оценки информационного поиска.
Key figures
- Cyril Cleverdon
- Ellen M. Voorhees
- Donna Harman
Related topics
Seminal works
- cleverdon1967
- voorhees2005
Frequently asked questions
- Что такое «qrels»?
- Qrels (query relevance judgments) — это записи, которые для каждой темы в тестовой коллекции указывают, какие документы были признаны релевантными и с какой степенью. Инструменты оценки сравнивают ранжированный вывод системы с qrels для вычисления метрик эффективности.
- Обесценивают ли разногласия между экспертами тестовые коллекции?
- Оценщики действительно расходятся во мнениях по отдельным документам, но исследования неоднократно показывали, что относительный порядок систем остается стабильным среди разных оценщиков. Таким образом, хотя абсолютные оценки меняются, выводы о том, какая система лучше, как правило, надежны.