O que a regularização faz?

Ela desencoraja um modelo de se tornar muito complexo, geralmente adicionando uma penalidade sobre o tamanho de seus parâmetros ou restringindo o treinamento. Isso reduz o sobreajuste (overfitting), de modo que o modelo captura o padrão subjacente em vez do ruído e tem um desempenho melhor em novos dados.

Por que a regularização L1 produz modelos esparsos?

A penalidade L1 sobre o valor absoluto dos parâmetros tem uma forma que leva alguns coeficientes exatamente a zero, em vez de apenas encolhê-los. Isso remove efetivamente as características correspondentes, resultando em um modelo mais simples e interpretável.

Regularização e Complexidade do Modelo

A regularização controla a complexidade do modelo penalizando ou restringindo um modelo, reduzindo o sobreajuste (overfitting) e melhorando a generalização.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

Regularização é qualquer modificação em um procedimento de aprendizado que reduz sua tendência a sobreajustar (overfit), tipicamente adicionando uma penalidade sobre a complexidade do modelo à função de perda ou restringindo o modelo, de modo que o modelo ajustado generalize melhor, mesmo à custa de um ajuste ligeiramente pior aos dados de treinamento.

Scope

Este tópico abrange técnicas para controlar a complexidade: penalidades L2 e L1 sobre parâmetros, parada antecipada (early stopping), dropout e aumento de dados (data augmentation) em redes neurais, e critérios de informação que penalizam a complexidade na seleção de modelos. Ele enquadra a regularização como a codificação de uma preferência por modelos mais simples e a conecta à visão Bayesiana de priors sobre parâmetros.

Core questions

Como as penalidades de complexidade reduzem o sobreajuste?
Como as penalidades L1 e L2 diferem em seus efeitos?
Quais métodos de regularização são específicos para redes neurais?
Como a regularização se relaciona com o uso Bayesiano de priors?

Key theories

Perda penalizada: Adicionar uma penalidade sobre a magnitude dos parâmetros à perda de treinamento desencoraja soluções excessivamente complexas, com L2 encolhendo os coeficientes suavemente e L1 promovendo esparsidade ao definir alguns como zero.
Regularização em aprendizado profundo: Técnicas como parada antecipada (early stopping), dropout, decaimento de peso (weight decay) e aumento de dados (data augmentation) controlam a complexidade efetiva das redes neurais, que de outra forma sobreajustariam dada sua grande capacidade.
Interpretação Bayesiana: Uma penalidade de complexidade corresponde a um prior sobre os parâmetros, de modo que a estimação regularizada pode ser lida como a busca pelos parâmetros mais prováveis sob esse prior, ligando a regularização à inferência Bayesiana.

Clinical relevance

A regularização é uma das ferramentas práticas mais importantes para fazer com que os modelos generalizem, e é essencial quando os modelos têm alta capacidade em relação aos dados, como nas redes profundas modernas; a quantidade e a forma corretas de regularização são, por si só, um problema de ajuste central para a construção de modelos confiáveis.

History

A estimação penalizada remonta à regularização de Tikhonov para problemas mal-postos e à regressão de crista (ridge regression) em estatística, com o lasso posteriormente adicionando esparsidade. Em aprendizado profundo, métodos como dropout, introduzido por volta de 2012, e decaimento de peso (weight decay) e aumento de dados (data augmentation) tornaram-se meios padrão de controlar a grande capacidade das redes neurais.

Key figures

Andrey Tikhonov
Robert Tibshirani
Geoffrey Hinton

Seminal works

hastie2009
goodfellow2016
tibshirani1996

Frequently asked questions

O que a regularização faz?: Ela desencoraja um modelo de se tornar muito complexo, geralmente adicionando uma penalidade sobre o tamanho de seus parâmetros ou restringindo o treinamento. Isso reduz o sobreajuste (overfitting), de modo que o modelo captura o padrão subjacente em vez do ruído e tem um desempenho melhor em novos dados.
Por que a regularização L1 produz modelos esparsos?: A penalidade L1 sobre o valor absoluto dos parâmetros tem uma forma que leva alguns coeficientes exatamente a zero, em vez de apenas encolhê-los. Isso remove efetivamente as características correspondentes, resultando em um modelo mais simples e interpretável.