Recuperação Tolerante e com Caracteres Curinga
A recuperação tolerante permite que um sistema de busca encontre correspondências para consultas, apesar de variações ortográficas, caracteres curinga e diferenças fonéticas, para que os usuários ainda encontrem documentos relevantes quando a consulta e o texto não correspondem exatamente.
Definition
A recuperação tolerante compreende técnicas de nível de dicionário que correspondem termos de consulta a termos indexados, apesar de entradas incompletas, mal escritas ou foneticamente variáveis, incluindo expansão de caracteres curinga, correção ortográfica baseada em distância de edição e codificação fonética.
Scope
Este tópico abrange técnicas que flexibilizam a correspondência exata de termos no nível do dicionário: processamento de consultas com caracteres curinga usando índices permuterm e k-gram, correção ortográfica por distância de edição e contexto, e correspondência fonética como Soundex. Ele trata de como o dicionário de termos é aumentado para suportar essas buscas aproximadas e como os termos candidatos são gerados e classificados, distinguindo-se da correspondência semântica, que aborda o significado em vez da forma superficial.
Core questions
- Como as consultas com caracteres curinga, como padrões de prefixo, sufixo e infixo, são avaliadas em relação ao dicionário?
- Como os índices permuterm e k-gram suportam buscas com caracteres curinga?
- Como o termo com a grafia correta mais próxima é encontrado para um termo de consulta mal escrito?
- Como a distância de edição (Levenshtein) quantifica a diferença entre duas strings?
- Como a correspondência fonética, como Soundex, agrupa termos que soam de forma semelhante?
Key concepts
- consulta com caractere curinga
- índice permuterm
- índice k-gram
- distância de edição (Levenshtein)
- correção ortográfica
- correspondência fonética (Soundex)
- correspondência aproximada de strings
- geração de termos candidatos
Key theories
- Indexação de caracteres curinga com índices permuterm e k-gram
- Rotacionar termos para que um caractere curinga sempre caia no final (permuterm) ou indexar termos por seus k-grams de caracteres permite que o sistema converta um padrão de caractere curinga em buscas de dicionário comuns que recuperam termos candidatos.
- Correção ortográfica por distância de edição
- O número mínimo de inserções, exclusões e substituições de um único caractere necessárias para transformar uma string em outra (distância de edição) fornece uma medida fundamentada para propor alternativas com grafia correta para um termo de consulta, frequentemente combinada com frequência de termos e contexto.
Clinical relevance
A recuperação tolerante impulsiona as funcionalidades de busca cotidianas: sugestões ortográficas de 'você quis dizer', autocompletar e busca por prefixo, e correspondência flexível de nomes e termos de produtos. Ela melhora substancialmente o recall e a experiência do usuário quando as consultas contêm erros de digitação ou quando os usuários não conhecem a grafia exata.
History
A correspondência aproximada e a correção ortográfica têm longas histórias na computação, com o Soundex datando do início do século XX para indexação de registros. A pesquisa de Kukich de 1992 consolidou as técnicas de correção ortográfica automática, e a pesquisa de Navarro de 2001 sistematizou a correspondência aproximada de strings. Esses métodos tornaram-se componentes padrão dos dicionários de busca à medida que a busca na web tornou essencial o tratamento flexível de consultas.
Key figures
- Karen Kukich
- Gonzalo Navarro
Related topics
Seminal works
- manning2008
- kukich1992
- navarro2001
Frequently asked questions
- Como um mecanismo de busca lida com um caractere curinga como 'comput*'?
- Ele usa uma estrutura de dicionário auxiliar, como um índice permuterm ou k-gram, para encontrar todos os termos que correspondem ao padrão (computador, computação, computacional, e assim por diante), e então avalia a consulta original como se esses termos tivessem sido listados explicitamente.
- O que é distância de edição e por que é usada para correção ortográfica?
- A distância de edição conta o mínimo de inserções, exclusões e substituições de um único caractere necessárias para transformar uma palavra em outra. Uma pequena distância de edição entre um termo de consulta mal escrito e um termo de dicionário sugere que o termo de dicionário é uma correção provável e pretendida.