Warum nicht jedes Dokument in der Sammlung beurteilen?

Große Sammlungen enthalten Millionen von Dokumenten, daher ist es undurchführbar, alle für jedes Thema zu beurteilen. Pooling beurteilt nur die Dokumente, die beitragende Systeme hoch einstufen, was die meisten relevanten Dokumente erfasst, während der Bewertungsaufwand überschaubar bleibt.

Welches Risiko birgt die Behandlung von nicht beurteilten Dokumenten als nicht relevant?

Ein späteres System könnte relevante Dokumente abrufen, die nie im Pool waren und daher als nicht relevant gezählt wurden, was dessen gemessenen Wert ungerechtfertigt senkt. Diese Pool-Verzerrung ist der Grund, warum bei der Wiederverwendung von Sammlungen tiefere, vielfältigere Pools und urteilsrobuste Metriken verwendet werden.

Pooling und Relevanzbewertung

Pooling ist die Methode, die eine groß angelegte IR-Evaluierung ermöglicht, indem nur die Dokumente beurteilt werden, die von den teilnehmenden Systemen hoch eingestuft werden, anstatt jedes Dokument in der Sammlung.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Pooling ist eine Stichprobenstrategie zur Relevanzbewertung, bei der die am höchsten eingestuften Dokumente aus einer Reihe von beitragenden Retrieval-Läufen zusammengeführt und Duplikate entfernt werden, um einen Pool zu bilden, den menschliche Gutachter beurteilen, wobei Dokumente außerhalb des Pools konventionell als nicht relevant behandelt werden.

Scope

Dieses Thema behandelt, wie Relevanzurteile für große Sammlungen effizient gesammelt werden, hauptsächlich die Pooling-Methode, die in TREC und ähnlichen Kampagnen verwendet wird, bei der die am höchsten eingestuften Dokumente vieler Systeme zu einem Pool zusammengeführt werden, den Gutachter beurteilen. Es befasst sich mit der Pooltiefe, der Behandlung von nicht beurteilten Dokumenten als nicht relevant, der Wiederverwendbarkeit und potenziellen Verzerrung von gepoolten Sammlungen sowie dem Aufwand und der Übereinstimmung der Gutachter. Es schließt die danach berechneten Metriken und die Definition der Sammlung selbst aus.

Core questions

Wie reduziert Pooling die Anzahl der zu beurteilenden Dokumente?
Wie wird die Pooltiefe gewählt und wie beeinflusst sie die Abdeckung relevanter Dokumente?
Warum werden nicht beurteilte Dokumente in der Regel als nicht relevant behandelt, und welche Verzerrung kann dies einführen?
Wie wiederverwendbar sind gepoolte Sammlungen für Systeme, die nicht zum Pool beigetragen haben?
Wie werden der Aufwand, die Übereinstimmung und die Qualität der Gutachter verwaltet?

Key concepts

Pooling-Methode
Pooltiefe
beitragende Läufe
Annahme: nicht beurteilt gleich nicht relevant
Pool-Bias und Wiederverwendbarkeit
Gutachter-Übereinstimmung
unvollständige Relevanzinformationen
Crowdsourcing-Relevanzbewertung

Key theories

Pooling für skalierbare Bewertung: Durch die Beurteilung nur der Vereinigung der am höchsten eingestuften Dokumente aus vielen verschiedenen Systemen ermöglicht Pooling die praktische Bewertung großer Sammlungen, während die meisten relevanten Dokumente gefunden werden, die jedes vernünftige System aufdecken würde.
Bedenken hinsichtlich Zuverlässigkeit und Wiederverwendbarkeit: Pooling kann relevante Dokumente, die nur von zukünftigen Systemen gefunden werden, unterrepräsentieren, was Fragen nach Verzerrung und Wiederverwendbarkeit aufwirft, die tiefere Pools, vielfältige Beitragende und robuste Metriken für unvollständige Urteile motivieren.

Clinical relevance

Pooling macht gemeinsame, wiederverwendbare Testkollektionen erschwinglich und bildet die Grundlage für die Urteile hinter jahrzehntelangen Benchmark-Ergebnissen. Das Verständnis seiner Annahmen ist wichtig, wenn alte Kollektionen zur Bewertung neuer Methoden wiederverwendet werden, insbesondere neuronaler Systeme, die relevante Dokumente aufdecken können, die die ursprünglichen Pools nie beurteilt haben.

History

Pooling wurde von TREC seit seinem Beginn im Jahr 1992 übernommen, um die Beurteilung großer Sammlungen handhabbar zu machen. Zobels Analyse von 1998 untersuchte die Zuverlässigkeit und Wiederverwendbarkeit von gepoolten Sammlungen, und nachfolgende Arbeiten zu unvollständigen Urteilen führten zu Metriken und tieferen oder intelligenteren Pooling-Strategien, um Verzerrungen zu mindern, während sich Sammlungen und Systempopulationen entwickelten.

Key figures

Ellen M. Voorhees
Justin Zobel
Chris Buckley

Seminal works

voorhees2005
zobel1998
buckley2004

Frequently asked questions

Warum nicht jedes Dokument in der Sammlung beurteilen?: Große Sammlungen enthalten Millionen von Dokumenten, daher ist es undurchführbar, alle für jedes Thema zu beurteilen. Pooling beurteilt nur die Dokumente, die beitragende Systeme hoch einstufen, was die meisten relevanten Dokumente erfasst, während der Bewertungsaufwand überschaubar bleibt.
Welches Risiko birgt die Behandlung von nicht beurteilten Dokumenten als nicht relevant?: Ein späteres System könnte relevante Dokumente abrufen, die nie im Pool waren und daher als nicht relevant gezählt wurden, was dessen gemessenen Wert ungerechtfertigt senkt. Diese Pool-Verzerrung ist der Grund, warum bei der Wiederverwendung von Sammlungen tiefere, vielfältigere Pools und urteilsrobuste Metriken verwendet werden.