В чем разница между переобучением и недообучением?

Недообучение происходит, когда модель слишком проста, чтобы уловить базовую закономерность, что приводит к высокому смещению и низкой производительности даже на обучающих данных. Переобучение происходит, когда модель настолько гибка, что подстраивается под шум в обучающих данных, что приводит к высокой дисперсии и низкой производительности на новых данных.

Как помогает регуляризация?

Регуляризация добавляет штраф за сложность модели, препятствуя использованию экстремальных или многочисленных параметров. Это уменьшает дисперсию, обычно за счет небольшого увеличения смещения, и таким образом снижает общую ошибку на невидимых данных, когда сложность в противном случае была бы слишком высокой.

Смещение-дисперсия и переобучение

Компромисс смещения-дисперсии объясняет, как сложность модели контролирует ошибку предсказания, при этом переобучение и недообучение являются двумя режимами отказа, которые должен балансировать обучающийся алгоритм.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Компромисс смещения-дисперсии — это принцип, согласно которому ожидаемая ошибка предсказания раскладывается на смещение (ошибка, возникающая из-за того, что модель слишком проста для улавливания истинных закономерностей) и дисперсию (ошибка, возникающая из-за того, что модель слишком чувствительна к конкретной обучающей выборке), при этом сложность модели перемещает ошибку между этими двумя компонентами.

Scope

Эта тема охватывает разложение ожидаемой ошибки предсказания на смещение, дисперсию и неустранимый шум; значение переобучения и недообучения; а также роль регуляризации в смещении баланса. Она также охватывает классическую U-образную кривую ошибок и недавние наблюдения двойного спуска в сильно перепараметризованных моделях.

Core questions

Как ожидаемая ошибка раскладывается на смещение, дисперсию и шум?
Что характеризует переобучение в сравнении с недообучением?
Как регуляризация смещает баланс смещения-дисперсии?
Почему очень гибкие модели иногда могут обобщать, несмотря на высокую сложность?

Key theories

Разложение смещения-дисперсии: Для квадратичной функции потерь ожидаемая ошибка делится на квадратичное смещение, дисперсию и неустранимый шум, что явно показывает, как упрощающие предположения уменьшают дисперсию за счет смещения и наоборот.
Переобучение и регуляризация: Переобучение происходит, когда модель улавливает шум, а не сигнал; регуляризация штрафует за сложность, чтобы уменьшить дисперсию, обменивая небольшое увеличение смещения на большее уменьшение дисперсии.
За пределами классического компромисса: В сильно перепараметризованных режимах ошибка может снова уменьшаться после точки интерполяции — это явление двойного спуска, которое усложняет классическую картину одной U-образной кривой.

Clinical relevance

Компромисс смещения-дисперсии является практической основой подгонки моделей, направляя выбор размера модели, силы регуляризации и количества признаков для минимизации ошибки на новых данных; диагностика того, является ли модель недообученной или переобученной, является рутинным и важным шагом в прикладном машинном обучении.

History

Разложение смещения-дисперсии было сформулировано для нейронных сетей и обучения Джеманом и коллегами около 1992 года и стало стандартным подходом в статистике и машинном обучении. Теория регуляризации формализовала контроль сложности, а недавние открытия двойного спуска побудили к пересмотру компромисса для современных перепараметризованных моделей.

Key figures

Stuart Geman
Trevor Hastie
Christopher Bishop

Seminal works

hastie2009
bishop2006
geman1992

Frequently asked questions

В чем разница между переобучением и недообучением?: Недообучение происходит, когда модель слишком проста, чтобы уловить базовую закономерность, что приводит к высокому смещению и низкой производительности даже на обучающих данных. Переобучение происходит, когда модель настолько гибка, что подстраивается под шум в обучающих данных, что приводит к высокой дисперсии и низкой производительности на новых данных.
Как помогает регуляризация?: Регуляризация добавляет штраф за сложность модели, препятствуя использованию экстремальных или многочисленных параметров. Это уменьшает дисперсию, обычно за счет небольшого увеличения смещения, и таким образом снижает общую ошибку на невидимых данных, когда сложность в противном случае была бы слишком высокой.