ScholarGate
Assistente

Coleções de Teste e Julgamentos de Relevância

Uma coleção de teste agrupa um conjunto de documentos, um conjunto de consultas e julgamentos de relevância humanos para que os sistemas de recuperação possam ser pontuados e comparados de forma reprodutível.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Uma coleção de teste é um conjunto de dados fixo que compreende um corpus de documentos, um conjunto de declarações de consulta ou tópico que descrevem as necessidades de informação e julgamentos de relevância que especificam quais documentos são relevantes para cada tópico, permitindo juntos a medição reprodutível da eficácia da recuperação.

Scope

Este tópico aborda a construção e o uso de coleções de teste de RI reutilizáveis, seguindo o paradigma de Cranfield: o corpus de documentos, as declarações de tópicos que definem as necessidades de informação e os julgamentos de relevância (qrels) que registram quais documentos são relevantes para cada tópico. Ele aborda a relevância graduada versus binária, a consistência dos julgamentos, a reutilização de coleções para novos sistemas e o papel de esforços em larga escala, como o TREC. Exclui as métricas calculadas a partir dos julgamentos e os procedimentos de pooling usados para coletá-los, que são tópicos adjacentes.

Core questions

  • Quais são os três componentes de uma coleção de teste estilo Cranfield?
  • Como as necessidades de informação expressas como tópicos se distinguem das consultas curtas dadas aos sistemas?
  • Como a relevância é definida e registrada, e quando a relevância graduada é usada?
  • Quão consistentes são os julgamentos de relevância humanos, e a inconsistência afeta as comparações?
  • O que torna uma coleção de teste reutilizável para sistemas que não contribuíram para ela?

Key concepts

  • corpus de documentos
  • declaração de tópico / necessidade de informação
  • julgamentos de relevância (qrels)
  • relevância binária vs. graduada
  • concordância do avaliador
  • reutilização da coleção
  • coleções de teste TREC
  • verdade fundamental para avaliação

Key theories

Paradigma de Cranfield
A fixação de documentos, consultas e julgamentos de relevância cria um ambiente de laboratório controlado no qual a saída classificada de qualquer sistema pode ser pontuada em relação aos julgamentos, tornando os experimentos de recuperação reprodutíveis e comparáveis.
Robustez das comparações à discordância do julgador
Embora os avaliadores humanos discordem sobre decisões individuais de relevância, estudos mostram que a classificação relativa dos sistemas em uma coleção é amplamente estável entre os avaliadores, apoiando a validade das comparações de coleções de teste.

Clinical relevance

As coleções de teste compartilhadas são a moeda comum da pesquisa em RI, permitindo que pesquisadores de todo o mundo comparem sistemas em tarefas idênticas e reproduzam resultados. Coleções de campanhas de avaliação como TREC, CLEF e NTCIR moldaram décadas de progresso e permanecem como benchmarks padrão para novos métodos de recuperação.

History

A metodologia de coleção de teste originou-se com os experimentos de Cranfield de Cleverdon na década de 1960, que compararam abordagens de indexação usando consultas e julgamentos fixos. O lançamento do TREC em 1992 escalou o paradigma para coleções grandes e realistas e muitas tarefas, produzindo as coleções padronizadas e reutilizáveis que ancoram a avaliação moderna de RI.

Key figures

  • Cyril Cleverdon
  • Ellen M. Voorhees
  • Donna Harman

Related topics

Seminal works

  • cleverdon1967
  • voorhees2005

Frequently asked questions

O que são 'qrels'?
Qrels (julgamentos de relevância de consulta) são os registros que indicam, para cada tópico em uma coleção de teste, quais documentos foram julgados relevantes e em que grau. As ferramentas de avaliação comparam a saída classificada de um sistema com os qrels para calcular as métricas de eficácia.
As discordâncias entre os julgadores humanos invalidam as coleções de teste?
Os avaliadores discordam sobre documentos individuais, mas pesquisas têm mostrado repetidamente que a ordenação relativa dos sistemas permanece estável entre diferentes avaliadores. Assim, embora as pontuações absolutas mudem, as conclusões sobre qual sistema é melhor são geralmente robustas.

Methods for this concept

Related concepts