¿Cómo maneja un motor de búsqueda un comodín como 'comput*'?

Utiliza una estructura de diccionario auxiliar, como un índice de permutación o de k-gramas, para encontrar todos los términos que coinciden con el patrón (computadora, computación, computacional, etc.), y luego evalúa la consulta original como si esos términos se hubieran enumerado explícitamente.

¿Qué es la distancia de edición y por qué se utiliza para la corrección ortográfica?

La distancia de edición cuenta el mínimo de inserciones, eliminaciones y sustituciones de un solo carácter necesarias para convertir una palabra en otra. Una pequeña distancia de edición entre un término de consulta mal escrito y un término de diccionario sugiere que el término de diccionario es una corrección probable.

Recuperación tolerante y con comodines

La recuperación tolerante permite que un sistema de búsqueda encuentre coincidencias en las consultas a pesar de las variaciones ortográficas, los comodines y las diferencias fonéticas, de modo que los usuarios sigan encontrando documentos relevantes cuando la consulta y el texto no coinciden exactamente.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La recuperación tolerante comprende técnicas a nivel de diccionario que hacen coincidir los términos de consulta con los términos indexados a pesar de la entrada incompleta, mal escrita o fonéticamente variable, incluyendo la expansión de comodines, la corrección ortográfica basada en la distancia de edición y la codificación fonética.

Scope

Este tema abarca técnicas que relajan la coincidencia exacta de términos a nivel de diccionario: el procesamiento de consultas con comodines utilizando índices de permutación y k-gramas, la corrección ortográfica por distancia de edición y contexto, y la coincidencia fonética como Soundex. Se trata de cómo se aumenta el diccionario de términos para admitir estas búsquedas aproximadas y cómo se generan y clasifican los términos candidatos, a diferencia de la coincidencia semántica, que aborda el significado en lugar de la forma superficial.

Core questions

¿Cómo se evalúan las consultas con comodines, como los patrones de prefijo, sufijo e infijo, frente al diccionario?
¿Cómo apoyan los índices de permutación y k-gramas las búsquedas con comodines?
¿Cómo se encuentra el término correctamente escrito más cercano para un término de consulta mal escrito?
¿Cómo cuantifica la distancia de edición (Levenshtein) la diferencia entre dos cadenas?
¿Cómo agrupa la coincidencia fonética, como Soundex, los términos que suenan de forma similar?

Key concepts

consulta con comodines
índice de permutación
índice de k-gramas
distancia de edición (Levenshtein)
corrección ortográfica
coincidencia fonética (Soundex)
coincidencia aproximada de cadenas
generación de términos candidatos

Key theories

Indexación con comodines mediante índices de permutación y k-gramas: Rotar los términos para que un comodín siempre caiga al final (permutación) o indexar los términos por sus k-gramas de caracteres permite al sistema convertir un patrón de comodín en búsquedas de diccionario ordinarias que recuperan términos candidatos.
Corrección ortográfica por distancia de edición: El número mínimo de inserciones, eliminaciones y sustituciones de un solo carácter necesarias para transformar una cadena en otra (distancia de edición) proporciona una medida fundamentada para proponer alternativas correctamente escritas a un término de consulta, a menudo combinada con la frecuencia y el contexto del término.

Clinical relevance

La recuperación tolerante impulsa las funcionalidades de búsqueda cotidianas: sugerencias ortográficas de 'quiso decir', autocompletado y búsqueda por prefijo, y la coincidencia flexible de nombres y términos de productos. Mejora sustancialmente la recuperación y la experiencia del usuario cuando las consultas contienen errores tipográficos o cuando los usuarios no conocen la ortografía exacta.

History

La coincidencia aproximada y la corrección ortográfica tienen una larga historia en la informática, con Soundex que data de los primeros registros de indexación del siglo XX. La encuesta de Kukich de 1992 consolidó las técnicas de corrección ortográfica automática, y la encuesta de Navarro de 2001 sistematizó la coincidencia aproximada de cadenas. Estos métodos se convirtieron en componentes estándar de los diccionarios de búsqueda a medida que la búsqueda web hizo esencial el manejo flexible de las consultas.

Key figures

Karen Kukich
Gonzalo Navarro

Seminal works

manning2008
kukich1992
navarro2001

Frequently asked questions

¿Cómo maneja un motor de búsqueda un comodín como 'comput*'?: Utiliza una estructura de diccionario auxiliar, como un índice de permutación o de k-gramas, para encontrar todos los términos que coinciden con el patrón (computadora, computación, computacional, etc.), y luego evalúa la consulta original como si esos términos se hubieran enumerado explícitamente.
¿Qué es la distancia de edición y por qué se utiliza para la corrección ortográfica?: La distancia de edición cuenta el mínimo de inserciones, eliminaciones y sustituciones de un solo carácter necesarias para convertir una palabra en otra. Una pequeña distancia de edición entre un término de consulta mal escrito y un término de diccionario sugiere que el término de diccionario es una corrección probable.