ScholarGate
Assistant

Modèles de récupération d'information

Les modèles de récupération d'information sont les cadres formels qui définissent ce qu'implique la correspondance entre un document et une requête, ainsi que la manière dont les documents sont évalués et classés en réponse à un besoin d'information.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Un modèle de récupération d'information est une spécification précise des représentations de documents et de requêtes, associée à une fonction de classement ou de correspondance qui, étant donné une requête, attribue à chaque document un score reflétant sa pertinence estimée par rapport au besoin d'information sous-jacent.

Scope

Ce domaine couvre les principaux modèles mathématiques utilisés pour faire correspondre des requêtes à des documents et pour classer les résultats : la récupération booléenne et booléenne étendue basée sur la théorie des ensembles, le modèle algébrique de l'espace vectoriel avec pondération des termes telle que tf-idf, les modèles probabilistes incluant le modèle d'indépendance binaire et BM25, et les modèles de langage statistiques pour la récupération. Il aborde la manière dont la pertinence est formalisée, comment les poids des termes sont attribués, et comment un score de similarité ou de probabilité induit un classement. Il exclut les structures de données qui rendent la récupération efficace (traitées sous l'indexation et le traitement des requêtes) et la mesure empirique de la performance d'un modèle (traitée sous l'évaluation).

Sub-topics

Core questions

  • Quelle représentation formelle des documents et des requêtes un modèle suppose-t-il ?
  • Comment un modèle traduit-il une représentation en un score de pertinence ou une décision de correspondance ?
  • Comment les termes individuels sont-ils pondérés pour refléter leur importance au sein d'un document et à travers une collection ?
  • Comment un modèle tient-il compte de l'incertitude inhérente à la pertinence ?
  • Quelles hypothèses (telles que l'indépendance des termes) un modèle formule-t-il, et quand celles-ci ne sont-elles plus valides ?

Key concepts

  • pertinence
  • pondération des termes et tf-idf
  • récupération booléenne
  • espace vectoriel et similarité cosinus
  • principe de classement probabiliste
  • modèle d'indépendance binaire et BM25
  • vraisemblance de la requête et lissage
  • hypothèse d'indépendance des termes
  • fonction de classement

Key theories

Modèle de l'espace vectoriel
Les documents et les requêtes sont représentés comme des vecteurs dans un espace de termes de haute dimension, généralement avec des poids tf-idf, et la pertinence est estimée par une similarité géométrique telle que le cosinus de l'angle entre les vecteurs de la requête et du document.
Principe de classement probabiliste et récupération probabiliste
Classer les documents selon leur probabilité estimée de pertinence par rapport à une requête optimise l'efficacité de la récupération sous certaines hypothèses ; le modèle d'indépendance binaire et son descendant pratique BM25 opérationnalisent cela avec une pondération des termes dérivée des probabilités de pertinence.
Approche par modélisation linguistique pour la récupération d'information
Chaque document est traité comme un échantillon provenant d'un modèle de langage génératif, et les documents sont classés selon la probabilité que leur modèle aurait généré la requête, avec un lissage utilisé pour gérer les termes de requête non observés.

Clinical relevance

Les modèles de récupération d'information constituent le cœur de l'évaluation de pratiquement tous les systèmes de recherche, des catalogues de bibliothèques et de la recherche en entreprise aux moteurs de recherche web, ainsi qu'aux étapes de classement des candidats dans la réponse aux questions et la génération augmentée par la récupération (retrieval-augmented generation). tf-idf et BM25, en particulier, demeurent des références solides et largement déployées.

History

Le modèle de l'espace vectoriel a émergé du projet SMART de Salton dans les années 1960 et 1970, conférant à la récupération d'information une fondation algébrique. Parallèlement, Robertson et Spärck Jones ont développé une théorie probabiliste de la pondération de la pertinence dans les années 1970, qui a ensuite évolué pour devenir la fonction de classement BM25. L'approche par modélisation linguistique, introduite par Ponte et Croft en 1998, a recadré la récupération d'information comme une génération statistique et a élargi la panoplie d'outils de modélisation.

Key figures

  • Gerard Salton
  • Stephen E. Robertson
  • Karen Spärck Jones
  • W. Bruce Croft
  • C. J. van Rijsbergen

Related topics

Seminal works

  • salton1975
  • robertson1976
  • ponte1998
  • manning2008

Frequently asked questions

Quelle est la différence entre un modèle de récupération d'information et une fonction de classement ?
Un modèle de récupération d'information est le cadre global qui spécifie comment les documents et les requêtes sont représentés et comment la pertinence est conçue ; la fonction de classement est la formule de score concrète que le modèle produit, telle que la similarité cosinus dans le modèle de l'espace vectoriel ou la formule BM25 dans la famille probabiliste.
Pourquoi BM25 est-il encore utilisé alors que des modèles neuronaux existent ?
BM25 est rapide, ne nécessite pas de données d'entraînement, possède très peu de paramètres et demeure une référence solide à laquelle les classeurs neuronaux sont souvent comparés et avec laquelle ils sont combinés. De nombreux systèmes modernes utilisent BM25 pour récupérer un ensemble initial de candidats qu'un modèle plus coûteux re-classe ensuite.

Methods for this concept

Related concepts