¿Qué hace la regularización?

Desalienta que un modelo se vuelva demasiado complejo, generalmente añadiendo una penalización al tamaño de sus parámetros o restringiendo el entrenamiento. Esto reduce el sobreajuste, de modo que el modelo captura el patrón subyacente en lugar del ruido y se desempeña mejor con datos nuevos.

¿Por qué la regularización L1 produce modelos dispersos?

La penalización L1 sobre el valor absoluto de los parámetros tiene una forma que lleva algunos coeficientes exactamente a cero en lugar de solo encogerlos. Esto elimina efectivamente las características correspondientes, lo que resulta en un modelo más simple y más interpretable.

Regularización y Complejidad del Modelo

La regularización controla la complejidad del modelo penalizándolo o restringiéndolo, reduciendo el sobreajuste y mejorando la generalización.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La regularización es cualquier modificación a un procedimiento de aprendizaje que reduce su tendencia al sobreajuste, típicamente añadiendo una penalización a la complejidad del modelo a la función de pérdida o restringiendo el modelo, de modo que el modelo ajustado generalice mejor incluso a costa de un ajuste ligeramente peor a los datos de entrenamiento.

Scope

Este tema cubre técnicas para controlar la complejidad: penalizaciones L2 y L1 sobre los parámetros, detención temprana (early stopping), abandono (dropout) y aumento de datos (data augmentation) en redes neuronales, y criterios de información que penalizan la complejidad en la selección de modelos. Enmarca la regularización como la codificación de una preferencia por modelos más simples y la conecta con la visión bayesiana de los priors sobre los parámetros.

Core questions

¿Cómo reducen las penalizaciones por complejidad el sobreajuste?
¿Cómo difieren las penalizaciones L1 y L2 en su efecto?
¿Qué métodos de regularización son específicos para las redes neuronales?
¿Cómo se relaciona la regularización con el uso bayesiano de los priors?

Key theories

Pérdida penalizada: Añadir una penalización sobre la magnitud de los parámetros a la pérdida de entrenamiento desalienta soluciones excesivamente complejas, con L2 encogiendo los coeficientes suavemente y L1 promoviendo la escasez al establecer algunos a cero.
Regularización en aprendizaje profundo: Técnicas como la detención temprana (early stopping), el abandono (dropout), la disminución de peso (weight decay) y el aumento de datos (data augmentation) controlan la complejidad efectiva de las redes neuronales, que de otro modo se sobreajustarían dada su gran capacidad.
Interpretación bayesiana: Una penalización por complejidad corresponde a un prior sobre los parámetros, por lo que la estimación regularizada puede interpretarse como la búsqueda de los parámetros más probables bajo ese prior, vinculando la regularización con la inferencia bayesiana.

Clinical relevance

La regularización es una de las herramientas prácticas más importantes para lograr que los modelos generalicen, y es esencial cuando los modelos tienen una alta capacidad en relación con los datos, como en las redes profundas modernas; la cantidad y forma correctas de regularización es en sí misma un problema de ajuste central para construir modelos fiables.

History

La estimación penalizada se remonta a la regularización de Tikhonov para problemas mal planteados y a la regresión de cresta (ridge regression) en estadística, con el lasso añadiendo posteriormente la escasez (sparsity). En el aprendizaje profundo, métodos como el abandono (dropout), introducido alrededor de 2012, y la disminución de peso (weight decay) y el aumento de datos (data augmentation) se convirtieron en medios estándar para controlar la gran capacidad de las redes neuronales.

Key figures

Andrey Tikhonov
Robert Tibshirani
Geoffrey Hinton

Seminal works

hastie2009
goodfellow2016
tibshirani1996

Frequently asked questions

¿Qué hace la regularización?: Desalienta que un modelo se vuelva demasiado complejo, generalmente añadiendo una penalización al tamaño de sus parámetros o restringiendo el entrenamiento. Esto reduce el sobreajuste, de modo que el modelo captura el patrón subyacente en lugar del ruido y se desempeña mejor con datos nuevos.
¿Por qué la regularización L1 produce modelos dispersos?: La penalización L1 sobre el valor absoluto de los parámetros tiene una forma que lleva algunos coeficientes exactamente a cero en lugar de solo encogerlos. Esto elimina efectivamente las características correspondientes, lo que resulta en un modelo más simple y más interpretable.