ScholarGate
Assistente

Modelos de Recuperação

Modelos de recuperação são os arcabouços formais que definem o que significa para um documento corresponder a uma consulta e como os documentos são pontuados e classificados em resposta a uma necessidade de informação.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

Um modelo de recuperação é uma especificação precisa das representações de documentos e consultas, juntamente com uma função de classificação ou correspondência que, dada uma consulta, atribui a cada documento uma pontuação que reflete sua relevância estimada para a necessidade de informação subjacente.

Scope

Esta área abrange os principais modelos matemáticos usados para comparar consultas com documentos e classificar os resultados: recuperação booleana e booleana estendida baseada em teoria de conjuntos, o modelo algébrico de espaço vetorial com ponderação de termos como tf-idf, modelos probabilísticos incluindo o modelo de independência binária e BM25, e modelos de linguagem estatísticos para recuperação. Trata de como a relevância é formalizada, como os pesos dos termos são atribuídos e como uma pontuação de similaridade ou probabilidade induz uma classificação. Exclui as estruturas de dados que tornam a recuperação eficiente (abordadas em indexação e processamento de consultas) e a medição empírica do desempenho de um modelo (abordada em avaliação).

Sub-topics

Core questions

  • Que representação formal de documentos e consultas um modelo assume?
  • Como um modelo traduz uma representação em uma pontuação de relevância ou uma decisão de correspondência?
  • Como os termos individuais são ponderados para refletir sua importância dentro de um documento e em uma coleção?
  • Como um modelo considera a incerteza inerente à relevância?
  • Que suposições (como independência de termos) um modelo faz, e quando elas falham?

Key concepts

  • relevância
  • ponderação de termos e tf-idf
  • recuperação booleana
  • espaço vetorial e similaridade de cosseno
  • princípio de classificação probabilística
  • modelo de independência binária e BM25
  • probabilidade de consulta e suavização
  • suposição de independência de termos
  • função de classificação

Key theories

Modelo de espaço vetorial
Documentos e consultas são representados como vetores em um espaço de termos de alta dimensão, tipicamente com pesos tf-idf, e a relevância é estimada por uma similaridade geométrica, como o cosseno do ângulo entre os vetores de consulta e documento.
Princípio de classificação probabilística e recuperação probabilística
Classificar documentos por sua probabilidade estimada de relevância para uma consulta otimiza a eficácia da recuperação sob suposições declaradas; o modelo de independência binária e seu descendente prático BM25 operacionalizam isso com ponderação de termos derivada de probabilidades de relevância.
Abordagem de modelagem de linguagem para recuperação
Cada documento é tratado como uma amostra de um modelo de linguagem generativo, e os documentos são classificados pela probabilidade de que seu modelo teria gerado a consulta, com suavização usada para lidar com termos de consulta não vistos.

Clinical relevance

Os modelos de recuperação são o núcleo de pontuação de praticamente todos os sistemas de busca, desde catálogos de bibliotecas e busca corporativa até motores de busca na web e as etapas de classificação de candidatos em sistemas de resposta a perguntas e geração aumentada por recuperação. tf-idf e BM25, em particular, permanecem como linhas de base robustas e amplamente empregadas.

History

O modelo de espaço vetorial emergiu do projeto SMART de Salton nas décadas de 1960 e 1970, conferindo à recuperação uma base algébrica. Paralelamente, Robertson e Spärck Jones desenvolveram uma teoria probabilística de ponderação de relevância na década de 1970, que mais tarde amadureceu na função de classificação BM25. A abordagem de modelagem de linguagem, introduzida por Ponte e Croft em 1998, reformulou a recuperação como geração estatística e ampliou o conjunto de ferramentas de modelagem.

Key figures

  • Gerard Salton
  • Stephen E. Robertson
  • Karen Spärck Jones
  • W. Bruce Croft
  • C. J. van Rijsbergen

Related topics

Seminal works

  • salton1975
  • robertson1976
  • ponte1998
  • manning2008

Frequently asked questions

Qual é a diferença entre um modelo de recuperação e uma função de classificação?
Um modelo de recuperação é o arcabouço geral que especifica como documentos e consultas são representados e como a relevância é concebida; a função de classificação é a fórmula de pontuação concreta que o modelo produz, como a similaridade de cosseno no modelo de espaço vetorial ou a fórmula BM25 na família probabilística.
Por que o BM25 ainda é usado quando existem modelos neurais?
O BM25 é rápido, não requer dados de treinamento, possui muito poucos parâmetros e permanece uma linha de base forte contra a qual os classificadores neurais são frequentemente medidos e combinados. Muitos sistemas modernos usam o BM25 para recuperar um conjunto inicial de candidatos que um modelo mais caro então reclassifica.

Methods for this concept

Related concepts