¿Por qué no juzgar cada documento de la colección?

Las grandes colecciones contienen millones de documentos, por lo que juzgarlos todos para cada tema es inviable. La agrupación juzga solo los documentos que los sistemas contribuyentes clasifican en los primeros puestos, lo que captura la mayoría de los documentos relevantes mientras mantiene el esfuerzo de evaluación manejable.

¿Cuál es el riesgo de tratar los documentos no juzgados como no relevantes?

Un sistema posterior podría recuperar documentos relevantes que nunca estuvieron en el pool y, por lo tanto, se contaron como no relevantes, lo que reduciría injustamente su puntuación medida. Este sesgo del pool es la razón por la que se utilizan pools más profundos y diversos y métricas robustas para el juicio al reutilizar colecciones.

Agrupación (Pooling) y Evaluación de Relevancia

La agrupación (pooling) es el método que hace factible la evaluación de IR a gran escala al juzgar solo los documentos que los sistemas participantes clasifican en los primeros puestos, en lugar de cada documento de la colección.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La agrupación (pooling) es una estrategia de muestreo para la evaluación de relevancia en la que los documentos mejor clasificados de un conjunto de ejecuciones de recuperación contribuyentes se fusionan, eliminando duplicados, en un pool que los evaluadores humanos juzgan, tratando convencionalmente los documentos fuera del pool como no relevantes.

Scope

Este tema cubre cómo se recopilan de manera eficiente los juicios de relevancia para grandes colecciones, principalmente el método de agrupación utilizado en TREC y campañas similares, donde los documentos mejor clasificados de muchos sistemas se fusionan en un pool que los evaluadores juzgan. Aborda la profundidad del pool, el tratamiento de los documentos no juzgados como no relevantes, la reusabilidad y el sesgo potencial de las colecciones agrupadas, y el esfuerzo y acuerdo del evaluador. Excluye las métricas calculadas posteriormente y la definición de la colección en sí.

Core questions

¿Cómo reduce la agrupación el número de documentos que deben juzgarse?
¿Cómo se elige la profundidad del pool y cómo afecta la cobertura de documentos relevantes?
¿Por qué los documentos no juzgados suelen tratarse como no relevantes, y qué sesgo puede introducir eso?
¿Qué tan reutilizables son las colecciones agrupadas para sistemas que no contribuyeron al pool?
¿Cómo se gestionan el esfuerzo, el acuerdo y la calidad del evaluador?

Key concepts

método de agrupación (pooling method)
profundidad del pool (pool depth)
ejecuciones contribuyentes (contributing runs)
suposición de no juzgado como no relevante (unjudged-as-non-relevant assumption)
sesgo del pool y reusabilidad (pool bias and reusability)
acuerdo del evaluador (assessor agreement)
información de relevancia incompleta (incomplete relevance information)
evaluación de relevancia colaborativa (crowdsourced relevance assessment)

Key theories

Agrupación para una evaluación escalable: Al juzgar solo la unión de los documentos mejor clasificados de muchos sistemas diversos, la agrupación hace que sea práctico evaluar grandes colecciones mientras se encuentran la mayoría de los documentos relevantes que cualquier sistema razonable mostraría.
Preocupaciones sobre la fiabilidad y la reusabilidad: La agrupación puede subrepresentar documentos relevantes encontrados solo por sistemas futuros, lo que plantea preguntas sobre el sesgo y la reusabilidad que motivan pools más profundos, colaboradores diversos y métricas robustas para juicios incompletos.

Clinical relevance

La agrupación es lo que hace que las colecciones de prueba compartidas y reutilizables sean asequibles, y sustenta los juicios detrás de décadas de resultados de referencia. Comprender sus suposiciones es importante al reutilizar colecciones antiguas para evaluar nuevos métodos, especialmente sistemas neuronales que pueden mostrar documentos relevantes que los pools originales nunca juzgaron.

History

La agrupación fue adoptada por TREC desde su inicio en 1992 para hacer que el juicio de grandes colecciones fuera manejable. El análisis de Zobel de 1998 examinó la fiabilidad y la reusabilidad de las colecciones agrupadas, y el trabajo posterior sobre juicios incompletos produjo métricas y estrategias de agrupación más profundas o inteligentes para mitigar el sesgo a medida que las colecciones y las poblaciones de sistemas evolucionaban.

Key figures

Ellen M. Voorhees
Justin Zobel
Chris Buckley

Seminal works

voorhees2005
zobel1998
buckley2004

Frequently asked questions

¿Por qué no juzgar cada documento de la colección?: Las grandes colecciones contienen millones de documentos, por lo que juzgarlos todos para cada tema es inviable. La agrupación juzga solo los documentos que los sistemas contribuyentes clasifican en los primeros puestos, lo que captura la mayoría de los documentos relevantes mientras mantiene el esfuerzo de evaluación manejable.
¿Cuál es el riesgo de tratar los documentos no juzgados como no relevantes?: Un sistema posterior podría recuperar documentos relevantes que nunca estuvieron en el pool y, por lo tanto, se contaron como no relevantes, lo que reduciría injustamente su puntuación medida. Este sesgo del pool es la razón por la que se utilizan pools más profundos y diversos y métricas robustas para el juicio al reutilizar colecciones.