¿Qué es el modelo de bolsa de palabras (bag-of-words)?

El modelo de bolsa de palabras representa un documento como el conjunto o multiconjunto de términos que contiene, ignorando el orden de las palabras y la gramática. A pesar de descartar la información de secuencia, es simple, eficiente y sorprendentemente efectivo para la recuperación, clasificación y agrupación.

¿Por qué aplicar un logaritmo a la frecuencia de término?

Un término que aparece diez veces no es diez veces más importante que uno que aparece una vez. Tomar un logaritmo de la frecuencia de término atenúa este efecto, de modo que las ocurrencias adicionales añaden progresivamente menos peso, lo que refleja mejor cómo la repetición se relaciona con la relevancia.

Representación y ponderación de documentos

La representación de documentos convierte el texto sin procesar en un conjunto estructurado de características ponderadas, decidiendo qué cuenta como un término y cuánto debe contribuir cada término.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La representación y ponderación de documentos es el proceso de transformar el texto de un documento sin procesar en un vector de características, típicamente términos, mediante la tokenización y normalización del texto y la asignación a cada característica de un peso que refleja su importancia dentro del documento y en toda la colección.

Scope

Este tema cubre los pasos que convierten los documentos en representaciones buscables: tokenización, normalización, manejo de palabras vacías (stop-words), derivación (stemming) y lematización, y la construcción de vectores de características de bolsa de palabras (bag-of-words) o n-gramas, junto con esquemas de ponderación de términos como la frecuencia de término bruta y logarítmica, la frecuencia inversa de documento y tf-idf con normalización de longitud. Trata las elecciones que dan forma a la representación que alimenta la recuperación, clasificación y agrupación, dejando los modelos de clasificación y las representaciones latentes a temas adyacentes.

Core questions

¿Cómo se tokeniza y normaliza el texto sin procesar en términos?
¿Cuál es el efecto de la eliminación de palabras vacías (stop-words), la derivación (stemming) y la lematización?
¿Por qué la frecuencia de término por sí sola es un peso deficiente y cómo se transforma?
¿Cómo captura la frecuencia inversa de documento la importancia de un término en una colección?
¿Cómo mantiene la normalización de longitud la comparabilidad entre documentos largos y cortos?

Key concepts

tokenización y normalización
palabras vacías (stop words)
derivación (stemming) y lematización
bolsa de palabras (bag-of-words) y n-gramas
frecuencia de término (bruta y logarítmica)
frecuencia inversa de documento
variantes de tf-idf
normalización de longitud

Key theories

Representación de bolsa de palabras (Bag-of-words): Tratar un documento como un multiconjunto desordenado de términos, ignorando el orden de las palabras, produce un vector de características simple y efectivo que sustenta la recuperación, clasificación y agrupación clásicas a pesar de descartar la sintaxis.
Esquemas de ponderación tf-idf: La combinación de un componente de frecuencia de término (a menudo atenuado) con la frecuencia inversa de documento y la normalización de longitud produce pesos que enfatizan los términos frecuentes en un documento pero raros en la colección, con muchas variantes documentadas.

Clinical relevance

Las elecciones de representación y ponderación afectan directamente la calidad de cada tarea posterior, desde la clasificación de búsqueda hasta el filtrado de spam y la agrupación. Las representaciones tf-idf siguen siendo una base sólida e interpretable, y las mismas preguntas de diseño de tokenización y normalización persisten en las tuberías modernas que alimentan las incrustaciones aprendidas.

History

La representación de documentos maduró junto con el modelo de espacio vectorial en las décadas de 1960 y 1970, con Spärck Jones introduciendo la frecuencia inversa de documento en 1972 y Salton y Buckley sistematizando las variantes de ponderación de términos en 1988. La representación de bolsa de palabras y tf-idf se convirtieron en el sustrato predeterminado para el procesamiento de texto en IR y aprendizaje automático durante décadas.

Key figures

Gerard Salton
Chris Buckley
Karen Spärck Jones

Seminal works

salton1988
sparckjones1972
manning2008

Frequently asked questions

¿Qué es el modelo de bolsa de palabras (bag-of-words)?: El modelo de bolsa de palabras representa un documento como el conjunto o multiconjunto de términos que contiene, ignorando el orden de las palabras y la gramática. A pesar de descartar la información de secuencia, es simple, eficiente y sorprendentemente efectivo para la recuperación, clasificación y agrupación.
¿Por qué aplicar un logaritmo a la frecuencia de término?: Un término que aparece diez veces no es diez veces más importante que uno que aparece una vez. Tomar un logaritmo de la frecuencia de término atenúa este efecto, de modo que las ocurrencias adicionales añaden progresivamente menos peso, lo que refleja mejor cómo la repetición se relaciona con la relevancia.