ScholarGate
Assistant

Modèles de récupération probabilistes

Les modèles de récupération probabilistes classent les documents en fonction de leur probabilité estimée d'être pertinents pour une requête, en fondant la pondération des termes sur la théorie des probabilités.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Un modèle de récupération probabiliste estime, pour chaque document, la probabilité qu'il soit pertinent pour une requête donnée et classe les documents selon cette probabilité, en dérivant les poids des termes de la probabilité relative que les termes apparaissent dans les documents pertinents par rapport aux documents non pertinents.

Scope

Ce sujet couvre les modèles de récupération basés sur la théorie des probabilités : le principe de classement probabiliste, le modèle d'indépendance binaire et son schéma de pondération de pertinence, ainsi que la fonction de classement BM25 avec sa saturation de fréquence de terme et sa normalisation de la longueur des documents. Il aborde la manière dont la pertinence est modélisée comme un événement probabiliste, comment les poids des termes sont estimés à partir des informations de pertinence, et pourquoi les classements résultants sont théoriquement optimaux sous certaines hypothèses. Il exclut les modèles de langage génératifs, qui sont traités séparément.

Core questions

  • Que stipule le principe de classement probabiliste concernant le classement optimal ?
  • Comment les poids des termes sont-ils dérivés de la probabilité qu'un terme apparaisse dans des documents pertinents par rapport à des documents non pertinents ?
  • Quelles hypothèses d'indépendance le modèle d'indépendance binaire formule-t-il ?
  • Comment BM25 prend-il en compte la saturation de la fréquence des termes et la longueur des documents ?
  • Comment la rétroaction de pertinence peut-elle affiner les estimations de probabilité ?

Key concepts

  • probabilité de pertinence
  • principe de classement probabiliste
  • modèle d'indépendance binaire
  • pondération de pertinence
  • BM25 / Okapi BM25
  • saturation de la fréquence des termes
  • normalisation de la longueur des documents
  • rétroaction de pertinence

Key theories

Principe de classement probabiliste
Le classement des documents par ordre décroissant de leur probabilité de pertinence produit la meilleure efficacité globale pour l'utilisateur sous des hypothèses de jugements de pertinence indépendants, fournissant ainsi la justification théorique du classement probabiliste.
Modèle d'indépendance binaire
En traitant les documents comme des vecteurs binaires de présence de termes et en supposant que les termes apparaissent indépendamment étant donné la pertinence, le modèle dérive un poids de pertinence pour chaque terme à partir des cotes de son apparition dans les documents pertinents par rapport aux documents non pertinents.
Fonction de classement BM25
La fonction de score pratique du cadre de pertinence probabiliste ajoute une saturation non linéaire de la fréquence des termes et une normalisation de la longueur des documents à la pondération de pertinence, produisant un classeur robuste et ajustable qui demeure une référence majeure.

Clinical relevance

BM25 est l'une des fonctions de classement les plus largement déployées dans les systèmes de recherche en production et les moteurs de recherche open source, et sert de référence solide standard à laquelle les classeurs neuronaux sont comparés. La pondération de pertinence probabiliste sous-tend également les fonctionnalités de rétroaction de pertinence qui affinent les résultats à partir des jugements des utilisateurs.

History

La RI probabiliste a été solidement établie par la théorie de la pondération de pertinence de Robertson et Spärck Jones en 1976 et le manuel fondamental de van Rijsbergen. Tout au long des années 1980 et 1990, le projet Okapi à la City University London a affiné ces idées pour aboutir à la fonction BM25, qui s'est avérée dominante dans les évaluations TREC. L'enquête de 2009 sur le cadre de pertinence probabiliste a consolidé cette famille de modèles.

Key figures

  • Stephen E. Robertson
  • Karen Spärck Jones
  • C. J. van Rijsbergen
  • Hugo Zaragoza

Related topics

Seminal works

  • robertson1976
  • robertson2009
  • vanrijsbergen1979

Frequently asked questions

Qu'est-ce que le principe de classement probabiliste ?
Il stipule que si un système de récupération classe les documents par ordre décroissant de leur probabilité de pertinence par rapport à la requête, alors, sous l'hypothèse que les jugements de pertinence sont indépendants, l'efficacité globale pour l'utilisateur est maximisée. C'est la base théorique du classement probabiliste.
Pourquoi BM25 est-il si efficace malgré des hypothèses simples ?
BM25 capture deux effets empiriquement importants que des pondérations plus simples ne prennent pas en compte : les rendements décroissants des occurrences répétées de termes (saturation) et la nécessité de normaliser la longueur des documents. Ces corrections, combinées à des poids de termes de type idf, en font un classeur remarquablement robuste.

Methods for this concept

Related concepts