Métricas de Eficácia de RI
As métricas de eficácia transformam uma lista classificada de resultados em um número que reflete o quão bem ela satisfaz uma necessidade de informação, permitindo que os sistemas sejam comparados e suas médias calculadas entre consultas.
Definition
Uma métrica de eficácia de RI é uma função que mapeia a saída classificada de um sistema para uma ou mais consultas, juntamente com julgamentos de relevância, para uma pontuação que quantifica a qualidade da recuperação, com diferentes métricas enfatizando a revocação, a precisão inicial ou o ganho graduado nas primeiras classificações.
Scope
Este tópico abrange as medidas usadas para pontuar a saída de recuperação: precisão e revocação baseadas em conjunto e sua combinação F-measure, medidas sensíveis à classificação, incluindo precisão em k, precisão média e precisão média média, classificação recíproca e medidas baseadas em ganho, como ganho cumulativo descontado e sua forma normalizada. Ele aborda o que cada métrica recompensa, como as métricas lidam com relevância graduada e julgamentos incompletos, e como as pontuações são agregadas e testadas quanto à significância. Exclui as coleções e julgamentos que fornecem os dados de relevância.
Core questions
- Como a precisão e a revocação capturam aspectos complementares da qualidade da recuperação?
- Por que são necessárias métricas sensíveis à classificação quando os usuários examinam os resultados de cima para baixo?
- Como a precisão média resume uma lista classificada em um único número?
- Como as métricas baseadas em ganho, como o nDCG, usam a relevância graduada e o desconto de classificação?
- Como as métricas são afetadas por julgamentos de relevância incompletos?
Key concepts
- precisão e revocação
- F-measure
- precisão em k
- precisão média e MAP
- classificação recíproca média (MRR)
- ganho cumulativo descontado (DCG / nDCG)
- relevância graduada
- métricas robustas para julgamentos incompletos (bpref)
Key theories
- Precisão, revocação e precisão média
- Precisão e revocação medem a fração de itens recuperados que são relevantes e a fração de itens relevantes recuperados; a precisão média integra a precisão em todos os níveis de revocação para uma única consulta, e sua média sobre as consultas (MAP) é um resumo padrão para a recuperação classificada.
- Ganho cumulativo descontado
- A avaliação baseada em ganho atribui a cada resultado um ganho de acordo com sua relevância graduada e desconta os ganhos em classificações mais baixas, então normaliza em relação à classificação ideal, resultando no nDCG, que recompensa a colocação de itens altamente relevantes perto do topo.
- Avaliação com julgamentos incompletos
- Quando nem todos os documentos são julgados, métricas ingênuas podem ser enviesadas, motivando medidas como bpref e AP inferido que são mais robustas a documentos não julgados em coleções grandes ou agrupadas.
Clinical relevance
As métricas de eficácia são o padrão pelo qual a pesquisa e a indústria de recuperação medem o progresso e escolhem entre os sistemas. nDCG e MAP, em particular, são rotineiros em campanhas de avaliação e testes offline de produção, e a escolha da métrica molda quais comportamentos um sistema de classificação é otimizado para produzir.
History
Precisão e revocação datam dos primeiros experimentos de RI, e a precisão média tornou-se a principal ferramenta de avaliação ad hoc do TREC. As medidas de ganho cumulativo de Järvelin e Kekäläinen de 2002 introduziram a avaliação de relevância graduada e com desconto de classificação, dando origem ao nDCG, que se tornou dominante para a classificação estilo web. O trabalho sobre julgamentos incompletos produziu métricas robustas para grandes coleções.
Key figures
- Kalervo Järvelin
- Jaana Kekäläinen
- Ellen M. Voorhees
- Chris Buckley
Related topics
Seminal works
- manning2008
- jarvelin2002
- buckley2004
Frequently asked questions
- Por que a precisão sozinha não é suficiente para avaliar um sistema de busca?
- A precisão mede quantos resultados recuperados são relevantes, mas ignora quantos documentos relevantes foram perdidos, o que a revocação captura. Um sistema pode ter precisão perfeita ao retornar um resultado obviamente relevante enquanto perde muitos outros, então os dois são geralmente considerados juntos ou combinados em medidas sensíveis à classificação.
- Que vantagem o nDCG oferece sobre a precisão média média?
- O nDCG usa relevância graduada, distinguindo resultados altamente relevantes de resultados marginalmente relevantes, e desconta explicitamente os ganhos em classificações mais baixas. Isso o torna adequado para a busca na web, onde os usuários se preocupam mais com os resultados do topo e a relevância não é simplesmente sim ou não.