Por que não julgar todos os documentos da coleção?

Grandes coleções contêm milhões de documentos, então julgar todos eles para cada tópico é inviável. O pooling julga apenas os documentos que os sistemas contribuintes classificam como altamente relevantes, o que captura a maioria dos documentos relevantes, mantendo o esforço de avaliação gerenciável.

Qual é o risco de tratar documentos não julgados como não relevantes?

Um sistema posterior pode recuperar documentos relevantes que nunca estiveram no pool e, portanto, foram contados como não relevantes, diminuindo injustamente sua pontuação medida. Esse viés do pool é o motivo pelo qual pools mais profundos e diversos e métricas robustas a julgamentos são usados ao reutilizar coleções.

Pooling e Avaliação de Relevância

Pooling é o método que torna viável a avaliação de IR em larga escala, julgando apenas os documentos que os sistemas participantes classificam como altamente relevantes, em vez de todos os documentos da coleção.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Pooling é uma estratégia de amostragem para avaliação de relevância na qual os documentos mais bem classificados de um conjunto de execuções de recuperação contribuintes são mesclados, com duplicatas removidas, em um pool que avaliadores humanos julgam, com documentos fora do pool convencionalmente tratados como não relevantes.

Scope

Este tópico aborda como os julgamentos de relevância são coletados eficientemente para grandes coleções, principalmente o método de pooling usado no TREC e campanhas semelhantes, onde os documentos mais bem classificados de muitos sistemas são mesclados em um pool que os avaliadores julgam. Ele aborda a profundidade do pool, o tratamento de documentos não julgados como não relevantes, a reutilização e o potencial viés de coleções agrupadas, e o esforço e concordância do avaliador. Exclui as métricas calculadas posteriormente e a definição da própria coleção.

Core questions

Como o pooling reduz o número de documentos que devem ser julgados?
Como a profundidade do pool é escolhida e como ela afeta a cobertura de documentos relevantes?
Por que os documentos não julgados são geralmente tratados como não relevantes, e que viés isso pode introduzir?
Quão reutilizáveis são as coleções agrupadas para sistemas que não contribuíram para o pool?
Como o esforço, a concordância e a qualidade do avaliador são gerenciados?

Key concepts

método de pooling
profundidade do pool
execuções contribuintes
suposição de não julgado como não relevante
viés e reutilização do pool
concordância do avaliador
informação de relevância incompleta
avaliação de relevância por crowdsourcing

Key theories

Pooling para avaliação escalável: Ao julgar apenas a união dos documentos mais bem classificados de muitos sistemas diversos, o pooling torna prático avaliar grandes coleções, enquanto ainda encontra a maioria dos documentos relevantes que qualquer sistema razoável apresentaria.
Preocupações com confiabilidade e reutilização: O pooling pode sub-representar documentos relevantes encontrados apenas por sistemas futuros, levantando questões sobre viés e reutilização que motivam pools mais profundos, colaboradores diversos e métricas robustas para julgamentos incompletos.

Clinical relevance

O pooling é o que torna as coleções de teste compartilháveis e reutilizáveis acessíveis, e ele sustenta os julgamentos por trás de décadas de resultados de benchmark. Compreender suas suposições é importante ao reutilizar coleções antigas para avaliar novos métodos, especialmente sistemas neurais que podem apresentar documentos relevantes que os pools originais nunca julgaram.

History

O pooling foi adotado pelo TREC desde o seu início em 1992 para tornar o julgamento de grandes coleções viável. A análise de Zobel de 1998 examinou a confiabilidade e a reutilização de coleções agrupadas, e trabalhos subsequentes sobre julgamentos incompletos produziram métricas e estratégias de pooling mais profundas ou mais inteligentes para mitigar o viés à medida que as coleções e as populações de sistemas evoluíam.

Key figures

Ellen M. Voorhees
Justin Zobel
Chris Buckley

Seminal works

voorhees2005
zobel1998
buckley2004

Frequently asked questions

Por que não julgar todos os documentos da coleção?: Grandes coleções contêm milhões de documentos, então julgar todos eles para cada tópico é inviável. O pooling julga apenas os documentos que os sistemas contribuintes classificam como altamente relevantes, o que captura a maioria dos documentos relevantes, mantendo o esforço de avaliação gerenciável.
Qual é o risco de tratar documentos não julgados como não relevantes?: Um sistema posterior pode recuperar documentos relevantes que nunca estiveram no pool e, portanto, foram contados como não relevantes, diminuindo injustamente sua pontuação medida. Esse viés do pool é o motivo pelo qual pools mais profundos e diversos e métricas robustas a julgamentos são usados ao reutilizar coleções.