Pourquoi la précision seule ne suffit-elle pas pour évaluer un système de recherche ?

La précision mesure le nombre de résultats pertinents parmi ceux récupérés, mais ignore le nombre de documents pertinents qui ont été manqués, ce que le rappel saisit. Un système peut avoir une précision parfaite en ne renvoyant qu'un seul résultat manifestement pertinent tout en en manquant beaucoup d'autres, les deux sont donc généralement considérés ensemble ou combinés en des mesures sensibles au rang.

Quel avantage le nDCG offre-t-il par rapport à la précision moyenne moyenne (MAP) ?

Le nDCG utilise la pertinence graduée, distinguant les résultats très pertinents des résultats marginalement pertinents, et actualise explicitement les gains aux rangs inférieurs. Cela le rend bien adapté à la recherche web, où les utilisateurs se soucient le plus des tout premiers résultats et où la pertinence n'est pas simplement un oui ou un non.

Mesures d'efficacité en RI

Les mesures d'efficacité transforment une liste de résultats classés en un nombre qui reflète la qualité de la satisfaction d'un besoin d'information, permettant de comparer les systèmes et de calculer des moyennes sur plusieurs requêtes.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Une métrique d'efficacité en RI est une fonction qui associe la sortie classée d'un système pour une ou plusieurs requêtes, ainsi que les jugements de pertinence, à un score quantifiant la qualité de la recherche, les différentes métriques mettant l'accent sur le rappel, la précision précoce ou le gain gradué aux premiers rangs.

Scope

Ce sujet couvre les mesures utilisées pour évaluer les résultats de recherche : la précision et le rappel basés sur des ensembles et leur combinaison F-mesure, les mesures sensibles au rang, y compris la précision à k, la précision moyenne et la précision moyenne moyenne (MAP), le rang réciproque, et les mesures basées sur le gain telles que le gain cumulatif actualisé (DCG) et sa forme normalisée (nDCG). Il aborde ce que chaque métrique récompense, comment les métriques gèrent la pertinence graduée et les jugements incomplets, et comment les scores sont agrégés et testés pour leur signification statistique. Il exclut les collections et les jugements qui fournissent les données de pertinence.

Core questions

Comment la précision et le rappel saisissent-ils des aspects complémentaires de la qualité de la recherche ?
Pourquoi les métriques sensibles au rang sont-elles nécessaires lorsque les utilisateurs parcourent les résultats de haut en bas ?
Comment la précision moyenne résume-t-elle une liste classée en un seul nombre ?
Comment les métriques basées sur le gain, telles que le nDCG, utilisent-elles la pertinence graduée et l'actualisation par rang ?
Comment les métriques sont-elles affectées par des jugements de pertinence incomplets ?

Key concepts

précision et rappel
F-mesure
précision à k
précision moyenne et MAP
rang réciproque moyen (MRR)
gain cumulatif actualisé (DCG / nDCG)
pertinence graduée
métriques robustes pour les jugements incomplets (bpref)

Key theories

Précision, rappel et précision moyenne: La précision et le rappel mesurent respectivement la proportion d'éléments pertinents parmi les éléments récupérés et la proportion d'éléments pertinents récupérés ; la précision moyenne intègre la précision sur les niveaux de rappel pour une seule requête, et sa moyenne sur les requêtes (MAP) est un résumé standard pour la recherche classée.
Gain cumulatif actualisé: L'évaluation basée sur le gain attribue à chaque résultat un gain en fonction de sa pertinence graduée et actualise les gains aux rangs inférieurs, puis normalise par rapport au classement idéal, produisant le nDCG, qui récompense le placement d'éléments très pertinents en haut de liste.
Évaluation avec des jugements incomplets: Lorsque tous les documents ne sont pas jugés, les métriques naïves peuvent être biaisées, ce qui motive des mesures telles que bpref et la précision moyenne inférée (inferred AP) qui sont plus robustes face aux documents non jugés dans les grandes collections ou les collections mises en commun.

Clinical relevance

Les mesures d'efficacité sont l'étalon à l'aide duquel la recherche et l'industrie de la recherche d'information mesurent les progrès et choisissent entre les systèmes. Le nDCG et le MAP en particulier sont couramment utilisés dans les campagnes d'évaluation et les tests hors ligne en production, et le choix de la métrique détermine les comportements qu'un système de classement est optimisé pour produire.

History

La précision et le rappel remontent aux premières expériences en RI, et la précision moyenne est devenue l'outil principal de l'évaluation ad hoc de TREC. Les mesures de gain cumulé de Järvelin et Kekäläinen (2002) ont introduit l'évaluation basée sur la pertinence graduée et l'actualisation par rang, donnant naissance au nDCG, qui est devenu dominant pour le classement de type web. Les travaux sur les jugements incomplets ont produit des métriques robustes pour les grandes collections.

Key figures

Kalervo Järvelin
Jaana Kekäläinen
Ellen M. Voorhees
Chris Buckley

Seminal works

manning2008
jarvelin2002
buckley2004

Frequently asked questions

Pourquoi la précision seule ne suffit-elle pas pour évaluer un système de recherche ?: La précision mesure le nombre de résultats pertinents parmi ceux récupérés, mais ignore le nombre de documents pertinents qui ont été manqués, ce que le rappel saisit. Un système peut avoir une précision parfaite en ne renvoyant qu'un seul résultat manifestement pertinent tout en en manquant beaucoup d'autres, les deux sont donc généralement considérés ensemble ou combinés en des mesures sensibles au rang.
Quel avantage le nDCG offre-t-il par rapport à la précision moyenne moyenne (MAP) ?: Le nDCG utilise la pertinence graduée, distinguant les résultats très pertinents des résultats marginalement pertinents, et actualise explicitement les gains aux rangs inférieurs. Cela le rend bien adapté à la recherche web, où les utilisateurs se soucient le plus des tout premiers résultats et où la pertinence n'est pas simplement un oui ou un non.