Qual é a diferença entre um modelo de recuperação e uma função de classificação?

Um modelo de recuperação é o arcabouço geral que especifica como documentos e consultas são representados e como a relevância é concebida; a função de classificação é a fórmula de pontuação concreta que o modelo produz, como a similaridade de cosseno no modelo de espaço vetorial ou a fórmula BM25 na família probabilística.

Por que o BM25 ainda é usado quando existem modelos neurais?

O BM25 é rápido, não requer dados de treinamento, possui muito poucos parâmetros e permanece uma linha de base forte contra a qual os classificadores neurais são frequentemente medidos e combinados. Muitos sistemas modernos usam o BM25 para recuperar um conjunto inicial de candidatos que um modelo mais caro então reclassifica.

Modelos de Recuperação

Modelos de recuperação são os arcabouços formais que definem o que significa para um documento corresponder a uma consulta e como os documentos são pontuados e classificados em resposta a uma necessidade de informação.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Um modelo de recuperação é uma especificação precisa das representações de documentos e consultas, juntamente com uma função de classificação ou correspondência que, dada uma consulta, atribui a cada documento uma pontuação que reflete sua relevância estimada para a necessidade de informação subjacente.

Scope

Esta área abrange os principais modelos matemáticos usados para comparar consultas com documentos e classificar os resultados: recuperação booleana e booleana estendida baseada em teoria de conjuntos, o modelo algébrico de espaço vetorial com ponderação de termos como tf-idf, modelos probabilísticos incluindo o modelo de independência binária e BM25, e modelos de linguagem estatísticos para recuperação. Trata de como a relevância é formalizada, como os pesos dos termos são atribuídos e como uma pontuação de similaridade ou probabilidade induz uma classificação. Exclui as estruturas de dados que tornam a recuperação eficiente (abordadas em indexação e processamento de consultas) e a medição empírica do desempenho de um modelo (abordada em avaliação).

Sub-topics

Core questions

Que representação formal de documentos e consultas um modelo assume?
Como um modelo traduz uma representação em uma pontuação de relevância ou uma decisão de correspondência?
Como os termos individuais são ponderados para refletir sua importância dentro de um documento e em uma coleção?
Como um modelo considera a incerteza inerente à relevância?
Que suposições (como independência de termos) um modelo faz, e quando elas falham?

Key concepts

relevância
ponderação de termos e tf-idf
recuperação booleana
espaço vetorial e similaridade de cosseno
princípio de classificação probabilística
modelo de independência binária e BM25
probabilidade de consulta e suavização
suposição de independência de termos
função de classificação

Key theories

Modelo de espaço vetorial: Documentos e consultas são representados como vetores em um espaço de termos de alta dimensão, tipicamente com pesos tf-idf, e a relevância é estimada por uma similaridade geométrica, como o cosseno do ângulo entre os vetores de consulta e documento.
Princípio de classificação probabilística e recuperação probabilística: Classificar documentos por sua probabilidade estimada de relevância para uma consulta otimiza a eficácia da recuperação sob suposições declaradas; o modelo de independência binária e seu descendente prático BM25 operacionalizam isso com ponderação de termos derivada de probabilidades de relevância.
Abordagem de modelagem de linguagem para recuperação: Cada documento é tratado como uma amostra de um modelo de linguagem generativo, e os documentos são classificados pela probabilidade de que seu modelo teria gerado a consulta, com suavização usada para lidar com termos de consulta não vistos.

Clinical relevance

Os modelos de recuperação são o núcleo de pontuação de praticamente todos os sistemas de busca, desde catálogos de bibliotecas e busca corporativa até motores de busca na web e as etapas de classificação de candidatos em sistemas de resposta a perguntas e geração aumentada por recuperação. tf-idf e BM25, em particular, permanecem como linhas de base robustas e amplamente empregadas.

History

O modelo de espaço vetorial emergiu do projeto SMART de Salton nas décadas de 1960 e 1970, conferindo à recuperação uma base algébrica. Paralelamente, Robertson e Spärck Jones desenvolveram uma teoria probabilística de ponderação de relevância na década de 1970, que mais tarde amadureceu na função de classificação BM25. A abordagem de modelagem de linguagem, introduzida por Ponte e Croft em 1998, reformulou a recuperação como geração estatística e ampliou o conjunto de ferramentas de modelagem.

Key figures

Gerard Salton
Stephen E. Robertson
Karen Spärck Jones
W. Bruce Croft
C. J. van Rijsbergen

Seminal works

salton1975
robertson1976
ponte1998
manning2008

Frequently asked questions

Qual é a diferença entre um modelo de recuperação e uma função de classificação?: Um modelo de recuperação é o arcabouço geral que especifica como documentos e consultas são representados e como a relevância é concebida; a função de classificação é a fórmula de pontuação concreta que o modelo produz, como a similaridade de cosseno no modelo de espaço vetorial ou a fórmula BM25 na família probabilística.
Por que o BM25 ainda é usado quando existem modelos neurais?: O BM25 é rápido, não requer dados de treinamento, possui muito poucos parâmetros e permanece uma linha de base forte contra a qual os classificadores neurais são frequentemente medidos e combinados. Muitos sistemas modernos usam o BM25 para recuperar um conjunto inicial de candidatos que um modelo mais caro então reclassifica.