Que sont les 'qrels' ?

Les qrels (jugements de pertinence de requête) sont les enregistrements qui indiquent, pour chaque sujet d'une collection de test, quels documents ont été jugés pertinents et à quel degré. Les outils d'évaluation comparent la sortie classée d'un système aux qrels pour calculer les métriques d'efficacité.

Les désaccords entre juges humains invalident-ils les collections de test ?

Les évaluateurs peuvent être en désaccord sur des documents individuels, mais la recherche a montré à plusieurs reprises que l'ordre relatif des systèmes reste stable entre les différents évaluateurs. Ainsi, bien que les scores absolus puissent varier, les conclusions concernant le meilleur système sont généralement robustes.

Collections de test et jugements de pertinence

Une collection de test regroupe un ensemble de documents, un ensemble de requêtes et des jugements de pertinence humains afin que les systèmes de recherche d'information puissent être évalués et comparés de manière reproductible.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Une collection de test est un ensemble de données fixe comprenant un corpus de documents, un ensemble d'énoncés de requêtes ou de sujets décrivant des besoins d'information, et des jugements de pertinence spécifiant quels documents sont pertinents pour chaque sujet, permettant ainsi une mesure reproductible de l'efficacité de la recherche d'information.

Scope

Ce sujet couvre la construction et l'utilisation de collections de test réutilisables en recherche d'information (RI) suivant le paradigme de Cranfield : le corpus de documents, les énoncés de sujets qui définissent les besoins d'information, et les jugements de pertinence (qrels) qui enregistrent quels documents sont pertinents pour chaque sujet. Il aborde la pertinence graduée versus binaire, la cohérence des jugements, la réutilisabilité des collections pour de nouveaux systèmes, et le rôle des efforts à grande échelle tels que TREC. Il exclut les métriques calculées à partir des jugements et les procédures de pooling utilisées pour les collecter, qui sont des sujets connexes.

Core questions

Quels sont les trois composants d'une collection de test de type Cranfield ?
Comment les besoins d'information exprimés sous forme de sujets se distinguent-ils des requêtes courtes fournies aux systèmes ?
Comment la pertinence est-elle définie et enregistrée, et quand la pertinence graduée est-elle utilisée ?
Quelle est la cohérence des jugements de pertinence humains, et l'incohérence affecte-t-elle les comparaisons ?
Qu'est-ce qui rend une collection de test réutilisable pour des systèmes qui n'y ont pas contribué ?

Key concepts

corpus de documents
énoncé de sujet / besoin d'information
jugements de pertinence (qrels)
pertinence binaire vs. graduée
accord entre évaluateurs
réutilisabilité des collections
collections de test TREC
vérité terrain pour l'évaluation

Key theories

Paradigme de Cranfield: La fixation des documents, des requêtes et des jugements de pertinence crée un cadre de laboratoire contrôlé dans lequel la sortie classée de tout système peut être évaluée par rapport aux jugements, rendant les expériences de recherche d'information reproductibles et comparables.
Robustesse des comparaisons face au désaccord des juges: Bien que les évaluateurs humains puissent être en désaccord sur des décisions de pertinence individuelles, des études montrent que le classement relatif des systèmes sur une collection est généralement stable entre les évaluateurs, ce qui soutient la validité des comparaisons basées sur les collections de test.

Clinical relevance

Les collections de test partagées constituent la monnaie courante de la recherche en RI, permettant aux chercheurs du monde entier de comparer des systèmes sur des tâches identiques et de reproduire les résultats. Les collections issues de campagnes d'évaluation telles que TREC, CLEF et NTCIR ont façonné des décennies de progrès et demeurent des références standard pour les nouvelles méthodes de recherche d'information.

History

La méthodologie des collections de test a vu le jour avec les expériences de Cranfield de Cleverdon dans les années 1960, qui comparaient les approches d'indexation à l'aide de requêtes et de jugements fixes. Le lancement de TREC en 1992 a étendu ce paradigme à de grandes collections réalistes et à de nombreuses tâches, produisant les collections standardisées et réutilisables qui sont le pilier de l'évaluation moderne en RI.

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Donna Harman

Seminal works

cleverdon1967
voorhees2005

Frequently asked questions

Que sont les 'qrels' ?: Les qrels (jugements de pertinence de requête) sont les enregistrements qui indiquent, pour chaque sujet d'une collection de test, quels documents ont été jugés pertinents et à quel degré. Les outils d'évaluation comparent la sortie classée d'un système aux qrels pour calculer les métriques d'efficacité.
Les désaccords entre juges humains invalident-ils les collections de test ?: Les évaluateurs peuvent être en désaccord sur des documents individuels, mais la recherche a montré à plusieurs reprises que l'ordre relatif des systèmes reste stable entre les différents évaluateurs. Ainsi, bien que les scores absolus puissent varier, les conclusions concernant le meilleur système sont généralement robustes.