¿Por qué la precisión por sí sola no es suficiente para evaluar un sistema de búsqueda?

La precisión mide cuántos resultados recuperados son relevantes, pero ignora cuántos documentos relevantes se pasaron por alto, lo que captura la exhaustividad. Un sistema puede tener una precisión perfecta al devolver un resultado obviamente relevante mientras omite muchos otros, por lo que los dos generalmente se consideran juntos o se combinan en medidas sensibles al rango.

¿Qué ventaja ofrece nDCG sobre la precisión promedio media?

nDCG utiliza la relevancia graduada, distinguiendo los resultados altamente relevantes de los marginalmente relevantes, y descuenta explícitamente las ganancias en rangos inferiores. Esto lo hace muy adecuado para la búsqueda web, donde los usuarios se preocupan más por los resultados principales y la relevancia no es simplemente sí o no.

Métricas de efectividad de IR

Las métricas de efectividad convierten una lista clasificada de resultados en un número que refleja qué tan bien satisface una necesidad de información, lo que permite comparar sistemas y promediarlos entre consultas.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Una métrica de efectividad de IR es una función que mapea la salida clasificada de un sistema para una o más consultas, junto con juicios de relevancia, a una puntuación que cuantifica la calidad de la recuperación, con diferentes métricas enfatizando la exhaustividad, la precisión temprana o la ganancia graduada en los rangos superiores.

Scope

Este tema cubre las medidas utilizadas para calificar la salida de recuperación: precisión y exhaustividad basadas en conjuntos y su combinación F-measure, medidas sensibles al rango que incluyen precisión en k, precisión promedio y precisión promedio media, rango recíproco y medidas basadas en ganancias como la ganancia acumulativa descontada y su forma normalizada. Aborda lo que recompensa cada métrica, cómo las métricas manejan la relevancia graduada y los juicios incompletos, y cómo se agregan las puntuaciones y se prueba su significancia. Excluye las colecciones y los juicios que proporcionan los datos de relevancia.

Core questions

¿Cómo capturan la precisión y la exhaustividad aspectos complementarios de la calidad de la recuperación?
¿Por qué se necesitan métricas sensibles al rango cuando los usuarios escanean los resultados de arriba hacia abajo?
¿Cómo resume la precisión promedio una lista clasificada en un solo número?
¿Cómo utilizan las métricas basadas en ganancias, como nDCG, la relevancia graduada y el descuento de rango?
¿Cómo afectan las métricas los juicios de relevancia incompletos?

Key concepts

precisión y exhaustividad
medida F
precisión en k
precisión promedio y MAP
rango recíproco medio (MRR)
ganancia acumulativa descontada (DCG / nDCG)
relevancia graduada
métricas robustas para juicios incompletos (bpref)

Key theories

Precisión, exhaustividad y precisión promedio: La precisión y la exhaustividad miden la fracción de elementos recuperados que son relevantes y la fracción de elementos relevantes recuperados; la precisión promedio integra la precisión en todos los niveles de exhaustividad para una sola consulta, y su media sobre las consultas (MAP) es un resumen estándar para la recuperación clasificada.
Ganancia acumulativa descontada: La evaluación basada en ganancias asigna a cada resultado una ganancia según su relevancia graduada y descuenta las ganancias en rangos inferiores, luego normaliza contra la clasificación ideal, lo que produce nDCG, que recompensa la colocación de elementos altamente relevantes cerca de la parte superior.
Evaluación con juicios incompletos: Cuando no se juzgan todos los documentos, las métricas ingenuas pueden estar sesgadas, lo que motiva medidas como bpref y AP inferida que son más robustas a los documentos no juzgados en colecciones grandes o agrupadas.

Clinical relevance

Las métricas de efectividad son el criterio por el cual la investigación y la industria de la recuperación miden el progreso y eligen entre sistemas. nDCG y MAP en particular son rutinarias en las campañas de evaluación y las pruebas de producción fuera de línea, y la elección de la métrica da forma a los comportamientos que un sistema de clasificación está optimizado para producir.

History

La precisión y la exhaustividad se remontan a los primeros experimentos de IR, y la precisión promedio se convirtió en la herramienta principal de la evaluación ad hoc de TREC. Las medidas de ganancia acumulada de Järvelin y Kekäläinen de 2002 introdujeron la evaluación de relevancia graduada y con descuento de rango, dando lugar a nDCG, que se volvió dominante para la clasificación de estilo web. El trabajo sobre juicios incompletos produjo métricas robustas para grandes colecciones.

Key figures

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

Seminal works

manning2008
jarvelin2002
buckley2004

Frequently asked questions

¿Por qué la precisión por sí sola no es suficiente para evaluar un sistema de búsqueda?: La precisión mide cuántos resultados recuperados son relevantes, pero ignora cuántos documentos relevantes se pasaron por alto, lo que captura la exhaustividad. Un sistema puede tener una precisión perfecta al devolver un resultado obviamente relevante mientras omite muchos otros, por lo que los dos generalmente se consideran juntos o se combinan en medidas sensibles al rango.
¿Qué ventaja ofrece nDCG sobre la precisión promedio media?: nDCG utiliza la relevancia graduada, distinguiendo los resultados altamente relevantes de los marginalmente relevantes, y descuenta explícitamente las ganancias en rangos inferiores. Esto lo hace muy adecuado para la búsqueda web, donde los usuarios se preocupan más por los resultados principales y la relevancia no es simplemente sí o no.