Representación y Clasificación de Texto
La representación y clasificación de texto abordan cómo los documentos se transforman en características y cómo esas representaciones facilitan la organización de colecciones por categoría, similitud y temas latentes.
Definition
La representación y clasificación de texto es el conjunto de métodos para convertir documentos en representaciones de características y para asignar, agrupar o proyectar esas representaciones, incluyendo la categorización supervisada en clases conocidas, la agrupación no supervisada y el modelado semántico o de temas latentes, al servicio de la recuperación y organización de colecciones.
Scope
Esta área abarca la representación de texto para la recuperación y la organización no supervisada y supervisada de colecciones de documentos: representación de documentos y ponderación de términos, clasificación automática de texto en categorías predefinidas, agrupación de texto en grupos descubiertos, y modelos semánticos latentes y de temas que revelan estructuras ocultas. Trata la representación y organización en la medida en que apoyan la recuperación de información, basándose en el aprendizaje automático y centrándose en el uso de estos métodos orientado a la recuperación, en lugar de la teoría del aprendizaje automático de propósito general.
Sub-topics
Core questions
- ¿Cómo se convierten los documentos en características y cómo se ponderan los términos?
- ¿Cómo se pueden clasificar automáticamente los documentos en categorías predefinidas?
- ¿Cómo se puede agrupar una colección en clústeres sin etiquetas predefinidas?
- ¿Cómo revelan los modelos semánticos latentes y de temas la estructura oculta en el texto?
- ¿Cómo mejoran estas representaciones la recuperación, la navegación y el filtrado?
Key concepts
- representación de documentos
- ponderación de términos (tf-idf)
- clasificación / categorización de texto
- agrupación de texto (clustering)
- análisis semántico latente
- modelos de temas
- selección de características
- desajuste de vocabulario
Key theories
- Representación vectorial y ponderación de términos
- La representación de documentos como vectores de características ponderados, típicamente sobre términos con ponderaciones de estilo tf-idf, proporciona el sustrato común sobre el cual operan la clasificación, la agrupación y el cálculo de similitud.
- Categorización de texto supervisada
- Dados ejemplos etiquetados, los clasificadores de aprendizaje automático pueden asignar documentos a categorías predefinidas, y la elección de características y del algoritmo de aprendizaje determina la precisión, como se sistematiza en la literatura de categorización de texto.
- Estructura semántica y de temas latente
- Métodos como el análisis semántico latente y la asignación de Dirichlet latente proyectan documentos en espacios de menor dimensión o distribuciones de temas, capturando relaciones semánticas y mitigando el desajuste de vocabulario.
Clinical relevance
Estos métodos impulsan el filtrado de spam, el enrutamiento y filtrado basados en temas, la navegación facetada, la deduplicación y la organización de resultados de búsqueda, y los modelos semánticos y de temas apoyan la búsqueda exploratoria y la recomendación. La representación de documentos también subyace en el paso de vectores de términos dispersos a incrustaciones densas aprendidas en la recuperación moderna.
History
La categorización de texto evolucionó de sistemas basados en reglas en la década de 1980 a una disciplina de aprendizaje automático a lo largo de la década de 1990, consolidada en la revisión de Sebastiani de 2002. El análisis semántico latente (1990) introdujo la reducción de dimensionalidad para la recuperación, y la asignación de Dirichlet latente (2003) estableció el modelado de temas probabilístico, ambos dando forma a cómo se representa la estructura semántica en el texto.
Key figures
- Fabrizio Sebastiani
- Susan Dumais
- David Blei
- Christopher Manning
Related topics
Seminal works
- manning2008
- sebastiani2002
- deerwester1990
- blei2003
Frequently asked questions
- ¿Cuál es la diferencia entre clasificación de texto y agrupación de texto (clustering)?
- La clasificación es supervisada: asigna documentos a categorías predefinidas utilizando ejemplos de entrenamiento etiquetados. La agrupación es no supervisada: agrupa documentos por similitud sin categorías predefinidas, descubriendo la estructura en lugar de ajustarla a etiquetas conocidas.
- ¿Por qué son útiles los modelos de temas latentes para la recuperación?
- Los modelos de temas y semánticos latentes representan documentos por temas subyacentes en lugar de palabras exactas, lo que ayuda a hacer coincidir consultas y documentos que usan vocabulario diferente para el mismo concepto y apoya la navegación de una colección por tema.