Pourquoi les collections de test sont-elles si centrales pour la recherche en RI ?

Une collection de test de documents, de requêtes et de jugements de pertinence permet d'évaluer différents systèmes sur exactement la même tâche, rendant les comparaisons reproductibles et équitables. Les collections réutilisables permettent également d'évaluer de nouveaux systèmes sans avoir à recueillir de nouveaux jugements à chaque fois.

Pourquoi utiliser l'évaluation en ligne si des collections de test existent ?

Les collections de test mesurent l'efficacité par rapport à des jugements fixes mais ne peuvent pas capturer pleinement la satisfaction, le contexte ou le comportement réels de l'utilisateur. Les expériences en ligne telles que les tests A/B et l'interleaving observent comment les utilisateurs réels réagissent, complétant les métriques hors ligne par des preuves comportementales.

Évaluation en recherche d'information

L'évaluation en recherche d'information est la méthodologie permettant de mesurer la capacité d'un système de recherche à satisfaire des besoins informationnels, en utilisant des collections de test, des jugements de pertinence et des métriques d'efficacité.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'évaluation en recherche d'information est l'ensemble des méthodes expérimentales et des métriques utilisées pour quantifier l'efficacité d'un système à retourner des résultats pertinents pour des besoins informationnels spécifiés, englobant les expériences hors ligne sur collections de test et les expériences en ligne basées sur les utilisateurs.

Scope

Ce domaine couvre la manière dont la qualité de la recherche est mesurée : le paradigme de la collection de test de Cranfield (documents, requêtes et jugements de pertinence) ; les métriques d'efficacité telles que la précision, le rappel, la précision moyenne (mean average precision) et le gain cumulatif actualisé normalisé (normalized discounted cumulative gain) ; les méthodes de pooling et d'évaluation pour recueillir des jugements à grande échelle ; et l'évaluation centrée sur l'utilisateur et en ligne par le biais d'études et d'expériences contrôlées comme les tests A/B et l'interleaving. Il traite de la science de la mesure de l'efficacité, distincte des modèles et systèmes mesurés.

Sub-topics

Core questions

Comment la qualité d'une liste classée peut-elle être quantifiée objectivement ?
Qu'est-ce qui constitue une collection de test réutilisable, et comment la pertinence est-elle jugée ?
Quelles métriques capturent la qualité des classements perçue par l'utilisateur ?
Comment les jugements de pertinence peuvent-ils être recueillis de manière abordable pour de grandes collections ?
Comment les expériences en ligne mesurent-elles la satisfaction réelle des utilisateurs ?

Key concepts

collection de test
jugements de pertinence (qrels)
précision et rappel
précision moyenne (MAP)
gain cumulatif actualisé normalisé (nDCG)
pooling
interleaving et tests A/B
signification statistique des résultats

Key theories

Paradigme de la collection de test de Cranfield: Les systèmes de recherche peuvent être comparés de manière reproductible en fixant une collection de documents, un ensemble de requêtes et des jugements de pertinence humains, puis en évaluant la sortie de chaque système par rapport à ces jugements, ce qui permet des expériences contrôlées et répétables.
L'efficacité comme construit mesurable: La définition de métriques sur les résultats classés, allant de la précision et du rappel basés sur des ensembles aux mesures sensibles au rang telles que la précision moyenne et le gain cumulatif actualisé, transforme la notion vague de qualité de recherche en quantités qui peuvent être moyennées sur les requêtes et comparées statistiquement.
Complémentarité de l'évaluation hors ligne et en ligne: Les expériences sur collections de test offrent reproductibilité et contrôle mais reposent sur la pertinence jugée, tandis que les expériences en ligne comme les tests A/B et l'interleaving mesurent le comportement réel de l'utilisateur, et les deux combinées offrent une image plus complète de la qualité du système.

Clinical relevance

Une évaluation rigoureuse permet au domaine de mesurer les progrès et de comparer équitablement les systèmes ; les collections de test partagées et les campagnes d'évaluation telles que TREC ont stimulé des décennies d'avancées. Les méthodes d'évaluation en ligne comme les tests A/B et l'interleaving sont des outils essentiels pour améliorer les systèmes de recherche et de recommandation en production.

History

L'évaluation systématique en RI a débuté avec les expériences de Cranfield de Cleverdon dans les années 1960, qui ont établi le paradigme de la collection de test. La Text REtrieval Conference (TREC), lancée en 1992 par le NIST, a étendu cette approche à de grandes collections et à de nombreuses tâches, standardisant les métriques et le pooling. L'évaluation en ligne par le biais d'expériences contrôlées s'est développée avec les systèmes interactifs à l'échelle du web.

Key figures

Cyril Cleverdon
Ellen M. Voorhees
Karen Spärck Jones
Mark Sanderson

Seminal works

cleverdon1967
voorhees2005
sanderson2010

Frequently asked questions

Pourquoi les collections de test sont-elles si centrales pour la recherche en RI ?: Une collection de test de documents, de requêtes et de jugements de pertinence permet d'évaluer différents systèmes sur exactement la même tâche, rendant les comparaisons reproductibles et équitables. Les collections réutilisables permettent également d'évaluer de nouveaux systèmes sans avoir à recueillir de nouveaux jugements à chaque fois.
Pourquoi utiliser l'évaluation en ligne si des collections de test existent ?: Les collections de test mesurent l'efficacité par rapport à des jugements fixes mais ne peuvent pas capturer pleinement la satisfaction, le contexte ou le comportement réels de l'utilisateur. Les expériences en ligne telles que les tests A/B et l'interleaving observent comment les utilisateurs réels réagissent, complétant les métriques hors ligne par des preuves comportementales.