Pooling et évaluation de la pertinence
Le pooling est la méthode qui rend possible l'évaluation à grande échelle de la recherche d'information (RI) en ne jugeant que les documents que les systèmes participants classent en tête, plutôt que chaque document de la collection.
Definition
Le pooling est une stratégie d'échantillonnage pour l'évaluation de la pertinence dans laquelle les documents les mieux classés d'un ensemble de soumissions de recherche contributives sont fusionnés, les doublons étant supprimés, dans un pool que des évaluateurs humains jugent, les documents extérieurs au pool étant conventionnellement traités comme non pertinents.
Scope
Ce sujet aborde la manière dont les jugements de pertinence sont recueillis efficacement pour de grandes collections, principalement la méthode de pooling utilisée dans TREC et des campagnes similaires, où les documents les mieux classés de nombreux systèmes sont fusionnés dans un pool que les évaluateurs jugent. Il traite de la profondeur du pool, du traitement des documents non jugés comme non pertinents, de la réutilisabilité et du biais potentiel des collections poolées, ainsi que de l'effort et de l'accord des évaluateurs. Il exclut les métriques calculées par la suite et la définition de la collection elle-même.
Core questions
- Comment le pooling réduit-il le nombre de documents à juger ?
- Comment la profondeur du pool est-elle choisie, et comment affecte-t-elle la couverture des documents pertinents ?
- Pourquoi les documents non jugés sont-ils généralement traités comme non pertinents, et quel biais cela peut-il introduire ?
- Dans quelle mesure les collections poolées sont-elles réutilisables pour les systèmes qui n'ont pas contribué au pool ?
- Comment l'effort, l'accord et la qualité des évaluateurs sont-ils gérés ?
Key concepts
- méthode de pooling
- profondeur du pool
- soumissions contributives
- hypothèse des non-jugés comme non pertinents
- biais du pool et réutilisabilité
- accord des évaluateurs
- informations de pertinence incomplètes
- évaluation de la pertinence par crowdsourcing
Key theories
- Pooling pour une évaluation évolutive
- En ne jugeant que l'union des documents les mieux classés provenant de nombreux systèmes diversifiés, le pooling rend pratique l'évaluation de grandes collections tout en trouvant la plupart des documents pertinents que tout système raisonnable ferait apparaître.
- Préoccupations concernant la fiabilité et la réutilisabilité
- Le pooling peut sous-représenter les documents pertinents trouvés uniquement par de futurs systèmes, soulevant des questions sur les biais et la réutilisabilité qui motivent des pools plus profonds, des contributeurs diversifiés et des métriques robustes pour les jugements incomplets.
Clinical relevance
Le pooling est ce qui rend les collections de test partagées et réutilisables abordables, et il sous-tend les jugements à l'origine de décennies de résultats de référence. Comprendre ses hypothèses est important lors de la réutilisation d'anciennes collections pour évaluer de nouvelles méthodes, en particulier les systèmes neuronaux qui peuvent faire apparaître des documents pertinents que les pools originaux n'ont jamais jugés.
History
Le pooling a été adopté par TREC dès sa création en 1992 pour rendre l'évaluation de grandes collections réalisable. L'analyse de Zobel en 1998 a examiné la fiabilité et la réutilisabilité des collections poolées, et les travaux ultérieurs sur les jugements incomplets ont produit des métriques et des stratégies de pooling plus profondes ou plus intelligentes pour atténuer les biais à mesure que les collections et les populations de systèmes évoluaient.
Key figures
- Ellen M. Voorhees
- Justin Zobel
- Chris Buckley
Related topics
Seminal works
- voorhees2005
- zobel1998
- buckley2004
Frequently asked questions
- Pourquoi ne pas juger chaque document de la collection ?
- Les grandes collections contiennent des millions de documents, il est donc irréalisable de les juger tous pour chaque sujet. Le pooling ne juge que les documents que les systèmes contributeurs classent en tête, ce qui permet de capturer la plupart des documents pertinents tout en maintenant l'effort d'évaluation gérable.
- Quel est le risque de traiter les documents non jugés comme non pertinents ?
- Un système ultérieur pourrait récupérer des documents pertinents qui n'ont jamais été dans le pool et donc comptés comme non pertinents, abaissant injustement son score mesuré. Ce biais du pool explique pourquoi des pools plus profonds et plus diversifiés, ainsi que des métriques robustes aux jugements incomplets, sont utilisés lors de la réutilisation des collections.