Clasificación de Texto
La clasificación de texto asigna automáticamente documentos a una o más categorías predefinidas utilizando modelos aprendidos a partir de ejemplos etiquetados.
Definition
La clasificación de texto es la tarea de asignar un documento a una o más categorías de un conjunto predefinido, realizada por un modelo entrenado en documentos cuyas etiquetas de categoría son conocidas, utilizando la representación basada en términos del documento como características de entrada.
Scope
Este tema abarca la categorización supervisada de texto: la formulación del problema como clasificación de etiqueta única, multietiqueta o jerárquica; aprendices representativos aplicados al texto como Bayes ingenuo, el método del centroide de Rocchio, k-vecinos más cercanos y máquinas de vectores de soporte; selección de características para texto de alta dimensionalidad; y la evaluación de clasificadores. Trata la clasificación tal como se utiliza en contextos de recuperación como el filtrado y el enrutamiento, basándose en el aprendizaje automático pero centrándose en consideraciones específicas del texto en lugar de la teoría general del clasificador.
Core questions
- ¿Cómo se formula la categorización de texto como clasificación de etiqueta única, multietiqueta o jerárquica?
- ¿Qué algoritmos de aprendizaje funcionan bien con características de texto dispersas y de alta dimensionalidad?
- ¿Cómo se seleccionan características informativas de un vocabulario grande?
- ¿Por qué las máquinas de vectores de soporte son particularmente adecuadas para el texto?
- ¿Cómo se evalúan los clasificadores de texto y cómo se maneja el desequilibrio de clases?
Key concepts
- categorización supervisada
- clasificación de etiqueta única vs. multietiqueta
- Bayes ingenuo
- clasificación de Rocchio / centroide
- k-vecinos más cercanos
- máquinas de vectores de soporte
- selección de características
- evaluación del clasificador (precisión, exhaustividad, F1)
Key theories
- Clasificación de texto con Bayes ingenuo
- Modelar los términos de cada documento como condicionalmente independientes dada la clase produce un clasificador probabilístico simple y rápido que, a pesar de su fuerte suposición de independencia, se desempeña de manera competitiva en muchas tareas de texto.
- Máquinas de vectores de soporte para texto
- Debido a que el texto tiene muchas características dispersas y en su mayoría relevantes, y las clases a menudo son linealmente separables en este espacio, las máquinas de vectores de soporte de margen grande logran una alta precisión en la categorización de texto con poca ingeniería de características.
Clinical relevance
La clasificación de texto impulsa el filtrado de spam de correo electrónico, la moderación de contenido, el enrutamiento y etiquetado de temas, el análisis de sentimientos y la categorización que respalda la búsqueda y el filtrado facetados. Dentro de la recuperación, subyace a los sistemas de filtrado y enrutamiento de documentos que entregan documentos que coinciden con necesidades de información permanentes.
History
La categorización automática de texto comenzó con sistemas de reglas construidos a mano y se trasladó al aprendizaje automático en la década de 1990. La demostración de Joachims en 1998 de que las máquinas de vectores de soporte sobresalen en el texto, y la encuesta de Sebastiani en 2002, establecieron el paradigma supervisado moderno. La misma tarea ahora sirve como un punto de referencia estándar para el aprendizaje de representación y los modelos de texto neuronales.
Key figures
- Fabrizio Sebastiani
- Thorsten Joachims
- Yiming Yang
Related topics
Seminal works
- sebastiani2002
- joachims1998
- manning2008
Frequently asked questions
- ¿Por qué funciona bien Bayes ingenuo a pesar de su suposición irreal de independencia?
- Aunque los términos no son verdaderamente independientes, la decisión de Bayes ingenuo a menudo acierta la clase correcta porque la suposición distorsiona principalmente las estimaciones de probabilidad en lugar del orden relativo de las clases. También es rápido y robusto con datos limitados, lo que lo convierte en una línea de base sólida.
- ¿Cuál es la diferencia entre la clasificación de etiqueta única y la multietiqueta?
- La clasificación de etiqueta única asigna cada documento a exactamente una categoría, mientras que la clasificación multietiqueta permite que un documento pertenezca a varias categorías a la vez, como cuando un artículo se etiqueta con múltiples temas. Las tareas multietiqueta necesitan métodos y métricas que manejen etiquetas superpuestas.