¿Qué distingue el aprendizaje supervisado del no supervisado?

El aprendizaje supervisado utiliza ejemplos con etiquetas o valores objetivo conocidos y aprende a predecir esos objetivos para nuevas entradas. El aprendizaje no supervisado trabaja con datos sin etiquetar y, en cambio, descubre estructuras como clústeres o representaciones de baja dimensión.

¿Por qué la generalización es la preocupación central?

Siempre se puede lograr que un modelo se ajuste perfectamente a los datos de entrenamiento, pero eso puede capturar ruido en lugar de la señal. El objetivo real es la precisión en datos no vistos, por lo que los métodos para estimar y controlar la brecha entre el error de entrenamiento y el de prueba, como la regularización y la validación cruzada, son esenciales.

Aprendizaje Supervisado

El aprendizaje supervisado construye modelos predictivos a partir de ejemplos emparejados con valores objetivo conocidos, aprendiendo un mapeo de entradas a salidas que se generaliza a casos no vistos.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El aprendizaje supervisado es la tarea de inferir una función a partir de un conjunto de entrenamiento de pares entrada-salida, de modo que la función prediga la salida para nuevas entradas; el algoritmo de aprendizaje elige la función para minimizar una medida de error en los datos de entrenamiento mientras controla la complejidad para evitar el sobreajuste.

Scope

Esta área cubre el aprendizaje a partir de datos etiquetados, incluyendo la clasificación y la regresión, la formulación del aprendizaje como minimización del riesgo empírico con una función de pérdida, la compensación entre sesgo y varianza, la generalización a nuevas entradas, y las principales familias de modelos: modelos lineales y lineales generalizados, métodos de vecinos más cercanos y de kernel, máquinas de vectores de soporte, árboles de decisión, y métodos de conjunto como el bagging y el boosting.

Sub-topics

Core questions

¿Cómo se puede ajustar un modelo a ejemplos etiquetados para que prediga bien en datos no vistos?
¿Qué funciones de pérdida y medidas de riesgo formalizan el objetivo de una predicción precisa?
¿Cómo la complejidad del modelo compensa el sesgo con la varianza?
¿Qué familias de modelos son apropiadas para problemas de clasificación versus regresión?

Key theories

Minimización del riesgo empírico: El aprendizaje se plantea como la elección de una función que minimiza la pérdida promedio en la muestra de entrenamiento como un sustituto para minimizar la pérdida esperada en la distribución subyacente, con regularización añadida para controlar la brecha entre ambos.
Descomposición sesgo-varianza: El error de predicción esperado se descompone en sesgo al cuadrado, varianza y ruido irreducible, explicando por qué los modelos excesivamente simples subajustan y los modelos excesivamente flexibles sobreajustan, y motivando el control de la complejidad.
Aprendizaje basado en margen y de conjunto: Maximizar un margen de separación (máquinas de vectores de soporte) y combinar muchos aprendices débiles o aleatorizados (bagging, boosting, bosques aleatorios) produce clasificadores que a menudo generalizan mejor que los modelos individuales no regularizados.

Clinical relevance

El aprendizaje supervisado subyace a la mayoría de los sistemas predictivos implementados, desde filtros de spam, calificación crediticia y soporte de diagnóstico médico hasta el reconocimiento de imágenes y voz; su desafío central es la generalización, asegurando que un modelo que se ajusta a ejemplos históricos también funcione con datos futuros, razón por la cual los métodos para estimar y controlar el error de generalización son fundamentales para el campo.

History

El aprendizaje supervisado surgió de la regresión estadística y el análisis discriminante, y de trabajos tempranos de reconocimiento de patrones como el perceptrón y las reglas del vecino más cercano. La década de 1990 trajo las máquinas de vectores de soporte y una rigurosa teoría del aprendizaje estadístico; la misma década y la siguiente vieron cómo los conjuntos de árboles de decisión, como el bagging, el boosting y los bosques aleatorios, se convertían en herramientas dominantes para la predicción tabular.

Debates

Interpretabilidad versus precisión predictiva: Los modelos altamente precisos, como los grandes conjuntos y las redes profundas, suelen ser opacos, lo que genera debate sobre cuándo se deben preferir los modelos interpretables, especialmente en decisiones de alto riesgo.

Key figures

Vladimir Vapnik
Leo Breiman
Trevor Hastie
Robert Tibshirani

Seminal works

bishop2006
hastie2009
cortes1995
breiman2001

Frequently asked questions

¿Qué distingue el aprendizaje supervisado del no supervisado?: El aprendizaje supervisado utiliza ejemplos con etiquetas o valores objetivo conocidos y aprende a predecir esos objetivos para nuevas entradas. El aprendizaje no supervisado trabaja con datos sin etiquetar y, en cambio, descubre estructuras como clústeres o representaciones de baja dimensión.
¿Por qué la generalización es la preocupación central?: Siempre se puede lograr que un modelo se ajuste perfectamente a los datos de entrenamiento, pero eso puede capturar ruido en lugar de la señal. El objetivo real es la precisión en datos no vistos, por lo que los métodos para estimar y controlar la brecha entre el error de entrenamiento y el de prueba, como la regularización y la validación cruzada, son esenciales.