Por que a precisão sozinha não é suficiente para avaliar um sistema de busca?

A precisão mede quantos resultados recuperados são relevantes, mas ignora quantos documentos relevantes foram perdidos, o que a revocação captura. Um sistema pode ter precisão perfeita ao retornar um resultado obviamente relevante enquanto perde muitos outros, então os dois são geralmente considerados juntos ou combinados em medidas sensíveis à classificação.

Que vantagem o nDCG oferece sobre a precisão média média?

O nDCG usa relevância graduada, distinguindo resultados altamente relevantes de resultados marginalmente relevantes, e desconta explicitamente os ganhos em classificações mais baixas. Isso o torna adequado para a busca na web, onde os usuários se preocupam mais com os resultados do topo e a relevância não é simplesmente sim ou não.

Métricas de Eficácia de RI

As métricas de eficácia transformam uma lista classificada de resultados em um número que reflete o quão bem ela satisfaz uma necessidade de informação, permitindo que os sistemas sejam comparados e suas médias calculadas entre consultas.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Uma métrica de eficácia de RI é uma função que mapeia a saída classificada de um sistema para uma ou mais consultas, juntamente com julgamentos de relevância, para uma pontuação que quantifica a qualidade da recuperação, com diferentes métricas enfatizando a revocação, a precisão inicial ou o ganho graduado nas primeiras classificações.

Scope

Este tópico abrange as medidas usadas para pontuar a saída de recuperação: precisão e revocação baseadas em conjunto e sua combinação F-measure, medidas sensíveis à classificação, incluindo precisão em k, precisão média e precisão média média, classificação recíproca e medidas baseadas em ganho, como ganho cumulativo descontado e sua forma normalizada. Ele aborda o que cada métrica recompensa, como as métricas lidam com relevância graduada e julgamentos incompletos, e como as pontuações são agregadas e testadas quanto à significância. Exclui as coleções e julgamentos que fornecem os dados de relevância.

Core questions

Como a precisão e a revocação capturam aspectos complementares da qualidade da recuperação?
Por que são necessárias métricas sensíveis à classificação quando os usuários examinam os resultados de cima para baixo?
Como a precisão média resume uma lista classificada em um único número?
Como as métricas baseadas em ganho, como o nDCG, usam a relevância graduada e o desconto de classificação?
Como as métricas são afetadas por julgamentos de relevância incompletos?

Key concepts

precisão e revocação
F-measure
precisão em k
precisão média e MAP
classificação recíproca média (MRR)
ganho cumulativo descontado (DCG / nDCG)
relevância graduada
métricas robustas para julgamentos incompletos (bpref)

Key theories

Precisão, revocação e precisão média: Precisão e revocação medem a fração de itens recuperados que são relevantes e a fração de itens relevantes recuperados; a precisão média integra a precisão em todos os níveis de revocação para uma única consulta, e sua média sobre as consultas (MAP) é um resumo padrão para a recuperação classificada.
Ganho cumulativo descontado: A avaliação baseada em ganho atribui a cada resultado um ganho de acordo com sua relevância graduada e desconta os ganhos em classificações mais baixas, então normaliza em relação à classificação ideal, resultando no nDCG, que recompensa a colocação de itens altamente relevantes perto do topo.
Avaliação com julgamentos incompletos: Quando nem todos os documentos são julgados, métricas ingênuas podem ser enviesadas, motivando medidas como bpref e AP inferido que são mais robustas a documentos não julgados em coleções grandes ou agrupadas.

Clinical relevance

As métricas de eficácia são o padrão pelo qual a pesquisa e a indústria de recuperação medem o progresso e escolhem entre os sistemas. nDCG e MAP, em particular, são rotineiros em campanhas de avaliação e testes offline de produção, e a escolha da métrica molda quais comportamentos um sistema de classificação é otimizado para produzir.

History

Precisão e revocação datam dos primeiros experimentos de RI, e a precisão média tornou-se a principal ferramenta de avaliação ad hoc do TREC. As medidas de ganho cumulativo de Järvelin e Kekäläinen de 2002 introduziram a avaliação de relevância graduada e com desconto de classificação, dando origem ao nDCG, que se tornou dominante para a classificação estilo web. O trabalho sobre julgamentos incompletos produziu métricas robustas para grandes coleções.

Key figures

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

Seminal works

manning2008
jarvelin2002
buckley2004

Frequently asked questions

Por que a precisão sozinha não é suficiente para avaliar um sistema de busca?: A precisão mede quantos resultados recuperados são relevantes, mas ignora quantos documentos relevantes foram perdidos, o que a revocação captura. Um sistema pode ter precisão perfeita ao retornar um resultado obviamente relevante enquanto perde muitos outros, então os dois são geralmente considerados juntos ou combinados em medidas sensíveis à classificação.
Que vantagem o nDCG oferece sobre a precisão média média?: O nDCG usa relevância graduada, distinguindo resultados altamente relevantes de resultados marginalmente relevantes, e desconta explicitamente os ganhos em classificações mais baixas. Isso o torna adequado para a busca na web, onde os usuários se preocupam mais com os resultados do topo e a relevância não é simplesmente sim ou não.