ScholarGate
Assistente

Métricas de Eficácia de RI

As métricas de eficácia transformam uma lista classificada de resultados em um número que reflete o quão bem ela satisfaz uma necessidade de informação, permitindo que os sistemas sejam comparados e suas médias calculadas entre consultas.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Uma métrica de eficácia de RI é uma função que mapeia a saída classificada de um sistema para uma ou mais consultas, juntamente com julgamentos de relevância, para uma pontuação que quantifica a qualidade da recuperação, com diferentes métricas enfatizando a revocação, a precisão inicial ou o ganho graduado nas primeiras classificações.

Scope

Este tópico abrange as medidas usadas para pontuar a saída de recuperação: precisão e revocação baseadas em conjunto e sua combinação F-measure, medidas sensíveis à classificação, incluindo precisão em k, precisão média e precisão média média, classificação recíproca e medidas baseadas em ganho, como ganho cumulativo descontado e sua forma normalizada. Ele aborda o que cada métrica recompensa, como as métricas lidam com relevância graduada e julgamentos incompletos, e como as pontuações são agregadas e testadas quanto à significância. Exclui as coleções e julgamentos que fornecem os dados de relevância.

Core questions

  • Como a precisão e a revocação capturam aspectos complementares da qualidade da recuperação?
  • Por que são necessárias métricas sensíveis à classificação quando os usuários examinam os resultados de cima para baixo?
  • Como a precisão média resume uma lista classificada em um único número?
  • Como as métricas baseadas em ganho, como o nDCG, usam a relevância graduada e o desconto de classificação?
  • Como as métricas são afetadas por julgamentos de relevância incompletos?

Key concepts

  • precisão e revocação
  • F-measure
  • precisão em k
  • precisão média e MAP
  • classificação recíproca média (MRR)
  • ganho cumulativo descontado (DCG / nDCG)
  • relevância graduada
  • métricas robustas para julgamentos incompletos (bpref)

Key theories

Precisão, revocação e precisão média
Precisão e revocação medem a fração de itens recuperados que são relevantes e a fração de itens relevantes recuperados; a precisão média integra a precisão em todos os níveis de revocação para uma única consulta, e sua média sobre as consultas (MAP) é um resumo padrão para a recuperação classificada.
Ganho cumulativo descontado
A avaliação baseada em ganho atribui a cada resultado um ganho de acordo com sua relevância graduada e desconta os ganhos em classificações mais baixas, então normaliza em relação à classificação ideal, resultando no nDCG, que recompensa a colocação de itens altamente relevantes perto do topo.
Avaliação com julgamentos incompletos
Quando nem todos os documentos são julgados, métricas ingênuas podem ser enviesadas, motivando medidas como bpref e AP inferido que são mais robustas a documentos não julgados em coleções grandes ou agrupadas.

Clinical relevance

As métricas de eficácia são o padrão pelo qual a pesquisa e a indústria de recuperação medem o progresso e escolhem entre os sistemas. nDCG e MAP, em particular, são rotineiros em campanhas de avaliação e testes offline de produção, e a escolha da métrica molda quais comportamentos um sistema de classificação é otimizado para produzir.

History

Precisão e revocação datam dos primeiros experimentos de RI, e a precisão média tornou-se a principal ferramenta de avaliação ad hoc do TREC. As medidas de ganho cumulativo de Järvelin e Kekäläinen de 2002 introduziram a avaliação de relevância graduada e com desconto de classificação, dando origem ao nDCG, que se tornou dominante para a classificação estilo web. O trabalho sobre julgamentos incompletos produziu métricas robustas para grandes coleções.

Key figures

  • Kalervo Järvelin
  • Jaana Kekäläinen
  • Ellen M. Voorhees
  • Chris Buckley

Related topics

Seminal works

  • manning2008
  • jarvelin2002
  • buckley2004

Frequently asked questions

Por que a precisão sozinha não é suficiente para avaliar um sistema de busca?
A precisão mede quantos resultados recuperados são relevantes, mas ignora quantos documentos relevantes foram perdidos, o que a revocação captura. Um sistema pode ter precisão perfeita ao retornar um resultado obviamente relevante enquanto perde muitos outros, então os dois são geralmente considerados juntos ou combinados em medidas sensíveis à classificação.
Que vantagem o nDCG oferece sobre a precisão média média?
O nDCG usa relevância graduada, distinguindo resultados altamente relevantes de resultados marginalmente relevantes, e desconta explicitamente os ganhos em classificações mais baixas. Isso o torna adequado para a busca na web, onde os usuários se preocupam mais com os resultados do topo e a relevância não é simplesmente sim ou não.

Methods for this concept

Related concepts