Algoritmos de Clasificación
Los algoritmos de clasificación asignan entradas a una de un conjunto finito de categorías al aprender límites de decisión o estimaciones de probabilidad de clase a partir de ejemplos etiquetados.
Definition
Un algoritmo de clasificación aprende, a partir de pares entrada-etiqueta, una regla que asigna cada nueva entrada a una clase discreta; los enfoques generativos modelan la distribución de las entradas dentro de cada clase y aplican la regla de Bayes, mientras que los enfoques discriminativos modelan directamente el límite de clase o la probabilidad posterior.
Scope
Este tema cubre la tarea supervisada de predecir etiquetas categóricas: clasificadores generativos probabilísticos como el Bayes ingenuo y el análisis discriminante gaussiano, clasificadores discriminativos como la regresión logística, métodos basados en instancias como los k-vecinos más cercanos, y las nociones de límite de decisión, probabilidad posterior de clase y el clasificador óptimo de Bayes que minimiza el error.
Core questions
- ¿Cómo se estima un límite de decisión entre clases a partir de datos etiquetados?
- ¿Cuándo debe un clasificador modelar distribuciones condicionales de clase versus la probabilidad posterior directamente?
- ¿Cuál es el error óptimo de Bayes y qué tan cerca puede llegar un clasificador aprendido a él?
- ¿Cómo se reducen o resuelven los problemas multiclase junto con la clasificación binaria?
Key theories
- Clasificación óptima de Bayes
- Asignar cada entrada a la clase con la probabilidad posterior más alta minimiza el error de clasificación errónea esperado, definiendo el óptimo teórico que los clasificadores prácticos aproximan.
- Modelos generativos versus discriminativos
- El Bayes ingenuo y el análisis discriminante modelan cómo se generan los datos por clase, mientras que la regresión logística modela directamente la probabilidad posterior de clase, una distinción que afecta la eficiencia de los datos y la robustez a la especificación errónea del modelo.
- Clasificación de vecinos más cercanos
- Clasificar por las etiquetas de puntos de entrenamiento cercanos es una regla no paramétrica simple cuyo error está asintóticamente limitado a no más del doble del error de Bayes, lo que ilustra cómo la información local por sí sola puede ser poderosa.
Clinical relevance
La clasificación es la herramienta principal del aprendizaje automático aplicado, subyacente a la detección de spam en correos electrónicos, el análisis de sentimientos, el etiquetado de imágenes, la detección de fraudes y el diagnóstico asistido por computadora; la comprensión del óptimo de Bayes y la distinción generativo-discriminativo guía la elección del método y la interpretación de las salidas de probabilidad de clase.
History
Los primeros clasificadores incluyeron el discriminante lineal de Fisher y la regla del vecino más cercano analizada por Cover y Hart en 1967. La regresión logística migró de la estadística al aprendizaje automático, y el Bayes ingenuo y el análisis discriminante se convirtieron en líneas de base probabilísticas estándar, todos unificados posteriormente dentro del marco de la estimación de probabilidades posteriores de clase.
Key figures
- Thomas Cover
- Peter Hart
- Christopher Bishop
Related topics
Seminal works
- cover1967
- bishop2006
- hastie2009
Frequently asked questions
- ¿Es la regresión logística un método de regresión o de clasificación?
- A pesar de su nombre, la regresión logística se utiliza para la clasificación. Modela la probabilidad de que una entrada pertenezca a una clase, y una regla de decisión luego convierte esa probabilidad en una etiqueta predicha.
- ¿Por qué los k-vecinos más cercanos no necesitan una fase de entrenamiento?
- Los k-vecinos más cercanos almacenan los datos de entrenamiento y clasifican un nuevo punto buscando sus ejemplos almacenados más cercanos en el momento de la predicción. No hay un modelo explícito ajustado, lo que hace que el entrenamiento sea trivial pero la predicción potencialmente lenta y con un uso intensivo de memoria.