Warum reicht Präzision allein nicht aus, um ein Suchsystem zu bewerten?

Präzision misst, wie viele abgerufene Ergebnisse relevant sind, ignoriert aber, wie viele relevante Dokumente übersehen wurden, was der Recall erfasst. Ein System kann eine perfekte Präzision aufweisen, indem es ein offensichtlich relevantes Ergebnis zurückgibt, während es viele andere verpasst. Daher werden die beiden in der Regel zusammen betrachtet oder zu rangsensitiven Maßen kombiniert.

Welchen Vorteil bietet nDCG gegenüber Mean Average Precision?

nDCG verwendet abgestufte Relevanz, unterscheidet hochrelevante von marginal relevanten Ergebnissen und diskontiert Gewinne in niedrigeren Rängen explizit. Dies macht es gut geeignet für die Websuche, wo Benutzer am meisten an den allerersten Ergebnissen interessiert sind und Relevanz nicht einfach Ja oder Nein ist.

IR-Effektivitätsmetriken

Effektivitätsmetriken wandeln eine Rangliste von Ergebnissen in eine Zahl um, die widerspiegelt, wie gut sie einen Informationsbedarf erfüllt. Dies ermöglicht den Vergleich von Systemen und die Mittelung über Anfragen hinweg.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Eine IR-Effektivitätsmetrik ist eine Funktion, die die Rangfolge der Ausgabe eines Systems für eine oder mehrere Anfragen zusammen mit Relevanzbeurteilungen einem Wert zuordnet, der die Retrieval-Qualität quantifiziert, wobei verschiedene Metriken den Recall, die frühe Präzision oder den abgestuften Gewinn in den oberen Rängen betonen.

Scope

Dieses Thema behandelt die Maße, die zur Bewertung der Retrieval-Ausgabe verwendet werden: mengenbasierte Präzision und Recall und deren F-Maß-Kombination, rangsensitive Maße einschließlich Präzision bei k, Average Precision und Mean Average Precision, Reziproker Rang und gewinnbasierte Maße wie Discounted Cumulative Gain und dessen normalisierte Form. Es wird erörtert, was jede Metrik belohnt, wie Metriken mit abgestufter Relevanz und unvollständigen Beurteilungen umgehen und wie Bewertungen aggregiert und auf Signifikanz getestet werden. Sammlungen und Beurteilungen, die die Relevanzdaten liefern, sind ausgeschlossen.

Core questions

Wie erfassen Präzision und Recall komplementäre Aspekte der Retrieval-Qualität?
Warum sind rangsensitive Metriken notwendig, wenn Benutzer Ergebnisse von oben nach unten scannen?
Wie fasst Average Precision eine Rangliste in einer einzigen Zahl zusammen?
Wie verwenden gewinnbasierte Metriken wie nDCG abgestufte Relevanz und Rangdiskontierung?
Wie werden Metriken durch unvollständige Relevanzbeurteilungen beeinflusst?

Key concepts

Präzision und Recall
F-Maß
Präzision bei k
Average Precision und MAP
Mean Reciprocal Rank (MRR)
Discounted Cumulative Gain (DCG / nDCG)
abgestufte Relevanz
robuste Metriken für unvollständige Beurteilungen (bpref)

Key theories

Präzision, Recall und Average Precision: Präzision und Recall messen den Anteil der abgerufenen Elemente, die relevant sind, und den Anteil der relevanten Elemente, die abgerufen wurden; Average Precision integriert die Präzision über Recall-Niveaus für eine einzelne Anfrage, und ihr Mittelwert über Anfragen (MAP) ist eine Standardzusammenfassung für das Rang-Retrieval.
Discounted Cumulative Gain: Die gewinnbasierte Evaluierung weist jedem Ergebnis einen Gewinn entsprechend seiner abgestuften Relevanz zu und diskontiert Gewinne in niedrigeren Rängen, normalisiert dann gegen die ideale Rangfolge, was zu nDCG führt, das das Platzieren hochrelevanter Elemente ganz oben belohnt.
Evaluierung mit unvollständigen Beurteilungen: Wenn nicht alle Dokumente beurteilt werden, können naive Metriken voreingenommen sein, was Maße wie bpref und inferiertes AP motiviert, die robuster gegenüber unbewerteten Dokumenten in großen oder gepoolten Sammlungen sind.

Clinical relevance

Effektivitätsmetriken sind der Maßstab, an dem die Retrieval-Forschung und -Industrie Fortschritte messen und zwischen Systemen wählen. Insbesondere nDCG und MAP sind in Evaluierungskampagnen und beim Offline-Testen in der Produktion Routine, und die Wahl der Metrik prägt, welche Verhaltensweisen ein Ranking-System optimiert zu produzieren.

History

Präzision und Recall stammen aus den frühesten IR-Experimenten, und Average Precision wurde zum Arbeitspferd der TREC-Ad-hoc-Evaluierung. Järvelin und Kekäläinens kumulierte Gewinnmaße von 2002 führten die abgestufte Relevanz und die rangdiskontierte Evaluierung ein, was zu nDCG führte, das für Web-ähnliches Ranking dominant wurde. Arbeiten zu unvollständigen Beurteilungen führten zu robusten Metriken für große Sammlungen.

Key figures

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

Seminal works

manning2008
jarvelin2002
buckley2004

Frequently asked questions

Warum reicht Präzision allein nicht aus, um ein Suchsystem zu bewerten?: Präzision misst, wie viele abgerufene Ergebnisse relevant sind, ignoriert aber, wie viele relevante Dokumente übersehen wurden, was der Recall erfasst. Ein System kann eine perfekte Präzision aufweisen, indem es ein offensichtlich relevantes Ergebnis zurückgibt, während es viele andere verpasst. Daher werden die beiden in der Regel zusammen betrachtet oder zu rangsensitiven Maßen kombiniert.
Welchen Vorteil bietet nDCG gegenüber Mean Average Precision?: nDCG verwendet abgestufte Relevanz, unterscheidet hochrelevante von marginal relevanten Ergebnissen und diskontiert Gewinne in niedrigeren Rängen explizit. Dies macht es gut geeignet für die Websuche, wo Benutzer am meisten an den allerersten Ergebnissen interessiert sind und Relevanz nicht einfach Ja oder Nein ist.