Pourquoi ne pas juger chaque document de la collection ?

Les grandes collections contiennent des millions de documents, il est donc irréalisable de les juger tous pour chaque sujet. Le pooling ne juge que les documents que les systèmes contributeurs classent en tête, ce qui permet de capturer la plupart des documents pertinents tout en maintenant l'effort d'évaluation gérable.

Quel est le risque de traiter les documents non jugés comme non pertinents ?

Un système ultérieur pourrait récupérer des documents pertinents qui n'ont jamais été dans le pool et donc comptés comme non pertinents, abaissant injustement son score mesuré. Ce biais du pool explique pourquoi des pools plus profonds et plus diversifiés, ainsi que des métriques robustes aux jugements incomplets, sont utilisés lors de la réutilisation des collections.

Pooling et évaluation de la pertinence

Le pooling est la méthode qui rend possible l'évaluation à grande échelle de la recherche d'information (RI) en ne jugeant que les documents que les systèmes participants classent en tête, plutôt que chaque document de la collection.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Le pooling est une stratégie d'échantillonnage pour l'évaluation de la pertinence dans laquelle les documents les mieux classés d'un ensemble de soumissions de recherche contributives sont fusionnés, les doublons étant supprimés, dans un pool que des évaluateurs humains jugent, les documents extérieurs au pool étant conventionnellement traités comme non pertinents.

Scope

Ce sujet aborde la manière dont les jugements de pertinence sont recueillis efficacement pour de grandes collections, principalement la méthode de pooling utilisée dans TREC et des campagnes similaires, où les documents les mieux classés de nombreux systèmes sont fusionnés dans un pool que les évaluateurs jugent. Il traite de la profondeur du pool, du traitement des documents non jugés comme non pertinents, de la réutilisabilité et du biais potentiel des collections poolées, ainsi que de l'effort et de l'accord des évaluateurs. Il exclut les métriques calculées par la suite et la définition de la collection elle-même.

Core questions

Comment le pooling réduit-il le nombre de documents à juger ?
Comment la profondeur du pool est-elle choisie, et comment affecte-t-elle la couverture des documents pertinents ?
Pourquoi les documents non jugés sont-ils généralement traités comme non pertinents, et quel biais cela peut-il introduire ?
Dans quelle mesure les collections poolées sont-elles réutilisables pour les systèmes qui n'ont pas contribué au pool ?
Comment l'effort, l'accord et la qualité des évaluateurs sont-ils gérés ?

Key concepts

méthode de pooling
profondeur du pool
soumissions contributives
hypothèse des non-jugés comme non pertinents
biais du pool et réutilisabilité
accord des évaluateurs
informations de pertinence incomplètes
évaluation de la pertinence par crowdsourcing

Key theories

Pooling pour une évaluation évolutive: En ne jugeant que l'union des documents les mieux classés provenant de nombreux systèmes diversifiés, le pooling rend pratique l'évaluation de grandes collections tout en trouvant la plupart des documents pertinents que tout système raisonnable ferait apparaître.
Préoccupations concernant la fiabilité et la réutilisabilité: Le pooling peut sous-représenter les documents pertinents trouvés uniquement par de futurs systèmes, soulevant des questions sur les biais et la réutilisabilité qui motivent des pools plus profonds, des contributeurs diversifiés et des métriques robustes pour les jugements incomplets.

Clinical relevance

Le pooling est ce qui rend les collections de test partagées et réutilisables abordables, et il sous-tend les jugements à l'origine de décennies de résultats de référence. Comprendre ses hypothèses est important lors de la réutilisation d'anciennes collections pour évaluer de nouvelles méthodes, en particulier les systèmes neuronaux qui peuvent faire apparaître des documents pertinents que les pools originaux n'ont jamais jugés.

History

Le pooling a été adopté par TREC dès sa création en 1992 pour rendre l'évaluation de grandes collections réalisable. L'analyse de Zobel en 1998 a examiné la fiabilité et la réutilisabilité des collections poolées, et les travaux ultérieurs sur les jugements incomplets ont produit des métriques et des stratégies de pooling plus profondes ou plus intelligentes pour atténuer les biais à mesure que les collections et les populations de systèmes évoluaient.

Key figures

Ellen M. Voorhees
Justin Zobel
Chris Buckley

Seminal works

voorhees2005
zobel1998
buckley2004

Frequently asked questions

Pourquoi ne pas juger chaque document de la collection ?: Les grandes collections contiennent des millions de documents, il est donc irréalisable de les juger tous pour chaque sujet. Le pooling ne juge que les documents que les systèmes contributeurs classent en tête, ce qui permet de capturer la plupart des documents pertinents tout en maintenant l'effort d'évaluation gérable.
Quel est le risque de traiter les documents non jugés comme non pertinents ?: Un système ultérieur pourrait récupérer des documents pertinents qui n'ont jamais été dans le pool et donc comptés comme non pertinents, abaissant injustement son score mesuré. Ce biais du pool explique pourquoi des pools plus profonds et plus diversifiés, ainsi que des métriques robustes aux jugements incomplets, sont utilisés lors de la réutilisation des collections.