Modelos de Recuperação
Modelos de recuperação são os arcabouços formais que definem o que significa para um documento corresponder a uma consulta e como os documentos são pontuados e classificados em resposta a uma necessidade de informação.
Definition
Um modelo de recuperação é uma especificação precisa das representações de documentos e consultas, juntamente com uma função de classificação ou correspondência que, dada uma consulta, atribui a cada documento uma pontuação que reflete sua relevância estimada para a necessidade de informação subjacente.
Scope
Esta área abrange os principais modelos matemáticos usados para comparar consultas com documentos e classificar os resultados: recuperação booleana e booleana estendida baseada em teoria de conjuntos, o modelo algébrico de espaço vetorial com ponderação de termos como tf-idf, modelos probabilísticos incluindo o modelo de independência binária e BM25, e modelos de linguagem estatísticos para recuperação. Trata de como a relevância é formalizada, como os pesos dos termos são atribuídos e como uma pontuação de similaridade ou probabilidade induz uma classificação. Exclui as estruturas de dados que tornam a recuperação eficiente (abordadas em indexação e processamento de consultas) e a medição empírica do desempenho de um modelo (abordada em avaliação).
Sub-topics
Core questions
- Que representação formal de documentos e consultas um modelo assume?
- Como um modelo traduz uma representação em uma pontuação de relevância ou uma decisão de correspondência?
- Como os termos individuais são ponderados para refletir sua importância dentro de um documento e em uma coleção?
- Como um modelo considera a incerteza inerente à relevância?
- Que suposições (como independência de termos) um modelo faz, e quando elas falham?
Key concepts
- relevância
- ponderação de termos e tf-idf
- recuperação booleana
- espaço vetorial e similaridade de cosseno
- princípio de classificação probabilística
- modelo de independência binária e BM25
- probabilidade de consulta e suavização
- suposição de independência de termos
- função de classificação
Key theories
- Modelo de espaço vetorial
- Documentos e consultas são representados como vetores em um espaço de termos de alta dimensão, tipicamente com pesos tf-idf, e a relevância é estimada por uma similaridade geométrica, como o cosseno do ângulo entre os vetores de consulta e documento.
- Princípio de classificação probabilística e recuperação probabilística
- Classificar documentos por sua probabilidade estimada de relevância para uma consulta otimiza a eficácia da recuperação sob suposições declaradas; o modelo de independência binária e seu descendente prático BM25 operacionalizam isso com ponderação de termos derivada de probabilidades de relevância.
- Abordagem de modelagem de linguagem para recuperação
- Cada documento é tratado como uma amostra de um modelo de linguagem generativo, e os documentos são classificados pela probabilidade de que seu modelo teria gerado a consulta, com suavização usada para lidar com termos de consulta não vistos.
Clinical relevance
Os modelos de recuperação são o núcleo de pontuação de praticamente todos os sistemas de busca, desde catálogos de bibliotecas e busca corporativa até motores de busca na web e as etapas de classificação de candidatos em sistemas de resposta a perguntas e geração aumentada por recuperação. tf-idf e BM25, em particular, permanecem como linhas de base robustas e amplamente empregadas.
History
O modelo de espaço vetorial emergiu do projeto SMART de Salton nas décadas de 1960 e 1970, conferindo à recuperação uma base algébrica. Paralelamente, Robertson e Spärck Jones desenvolveram uma teoria probabilística de ponderação de relevância na década de 1970, que mais tarde amadureceu na função de classificação BM25. A abordagem de modelagem de linguagem, introduzida por Ponte e Croft em 1998, reformulou a recuperação como geração estatística e ampliou o conjunto de ferramentas de modelagem.
Key figures
- Gerard Salton
- Stephen E. Robertson
- Karen Spärck Jones
- W. Bruce Croft
- C. J. van Rijsbergen
Related topics
Seminal works
- salton1975
- robertson1976
- ponte1998
- manning2008
Frequently asked questions
- Qual é a diferença entre um modelo de recuperação e uma função de classificação?
- Um modelo de recuperação é o arcabouço geral que especifica como documentos e consultas são representados e como a relevância é concebida; a função de classificação é a fórmula de pontuação concreta que o modelo produz, como a similaridade de cosseno no modelo de espaço vetorial ou a fórmula BM25 na família probabilística.
- Por que o BM25 ainda é usado quando existem modelos neurais?
- O BM25 é rápido, não requer dados de treinamento, possui muito poucos parâmetros e permanece uma linha de base forte contra a qual os classificadores neurais são frequentemente medidos e combinados. Muitos sistemas modernos usam o BM25 para recuperar um conjunto inicial de candidatos que um modelo mais caro então reclassifica.