¿Cuál es la diferencia entre la regresión ridge y lasso?

Ambas añaden una penalización sobre el tamaño de los coeficientes a los mínimos cuadrados ordinarios. Ridge utiliza una penalización cuadrática (L2) que reduce suavemente todos los coeficientes, mientras que lasso utiliza una penalización de valor absoluto (L1) que puede llevar algunos coeficientes exactamente a cero, seleccionando efectivamente un subconjunto de características.

¿Por qué se utiliza tan comúnmente el error cuadrático?

Minimizar el error cuadrático da la media condicional como el mejor predictor y corresponde a la máxima verosimilitud cuando el ruido es gaussiano. También es matemáticamente conveniente porque produce soluciones de forma cerrada o suavemente diferenciables.

Regresión y Aproximación de Funciones

La regresión aprende una función de valor continuo a partir de ejemplos etiquetados, prediciendo objetivos numéricos y aproximando una relación de entrada-salida desconocida.

Definition

La regresión es la tarea supervisada de estimar una función que mapea las entradas a una salida continua, típicamente minimizando una pérdida como el error cuadrático sobre ejemplos de entrenamiento, con penalizaciones de regularización utilizadas para reducir los coeficientes y limitar el sobreajuste.

Scope

Este tema cubre el aprendizaje supervisado de resultados de valor real: regresión lineal y polinómica, modelos de función base y splines, regularización ridge y lasso, el objetivo de mínimos cuadrados y su interpretación probabilística como ruido gaussiano, y la compensación entre sesgo y varianza que rige la flexibilidad que debe tener la función ajustada.

Core questions

¿Cómo se ajusta una función continua a datos etiquetados ruidosos?
¿Qué funciones de pérdida corresponden a qué suposiciones de ruido?
¿Cómo las penalizaciones ridge y lasso compensan el ajuste con la complejidad del modelo?
¿Qué tan flexible debe ser una función de regresión para equilibrar el sesgo y la varianza?

Key theories

Mínimos cuadrados y la visión de Gauss-Markov: Minimizar el error cuadrático produce la media condicional como el predictor óptimo bajo ruido aditivo, y para los modelos lineales da la mejor estimación lineal insesgada, vinculando la regresión a la máxima verosimilitud bajo ruido gaussiano.
Regresión regularizada: La regresión ridge reduce los coeficientes hacia cero con una penalización L2, mientras que el lasso utiliza una penalización L1 que puede establecer coeficientes exactamente en cero, realizando la selección de variables y mejorando la predicción en altas dimensiones.
Expansión de funciones base: Las relaciones no lineales se capturan mapeando las entradas a través de funciones base fijas o adaptativas, como polinomios, splines o funciones radiales, de modo que un modelo lineal en las nuevas características ajusta una función no lineal de las originales.

Clinical relevance

La regresión es fundamental para la previsión, el ajuste de curvas científicas, el modelado de riesgos y cualquier tarea con un objetivo numérico, y las mismas ideas de regularización que mejoran la regresión, como ridge y lasso, se repiten en todo el aprendizaje automático como un medio general para controlar la complejidad del modelo.

History

La regresión por mínimos cuadrados se remonta a Gauss y Legendre y entró en el aprendizaje automático como una herramienta predictiva fundamental. La regresión ridge introdujo la contracción para estabilizar problemas mal condicionados, y el lasso, introducido por Tibshirani en 1996, convirtió la regresión dispersa en una técnica estándar para la predicción de alta dimensión y la selección de variables.

Key figures

Trevor Hastie
Robert Tibshirani
Arthur Hoerl

Seminal works

hastie2009
bishop2006
tibshirani1996

Frequently asked questions

¿Cuál es la diferencia entre la regresión ridge y lasso?: Ambas añaden una penalización sobre el tamaño de los coeficientes a los mínimos cuadrados ordinarios. Ridge utiliza una penalización cuadrática (L2) que reduce suavemente todos los coeficientes, mientras que lasso utiliza una penalización de valor absoluto (L1) que puede llevar algunos coeficientes exactamente a cero, seleccionando efectivamente un subconjunto de características.
¿Por qué se utiliza tan comúnmente el error cuadrático?: Minimizar el error cuadrático da la media condicional como el mejor predictor y corresponde a la máxima verosimilitud cuando el ruido es gaussiano. También es matemáticamente conveniente porque produce soluciones de forma cerrada o suavemente diferenciables.