편향-분산 및 과적합
편향-분산 트레이드오프는 모델 복잡성이 예측 오차를 어떻게 제어하는지 설명하며, 과적합(overfitting)과 과소적합(underfitting)은 학습자가 균형을 맞춰야 하는 두 가지 실패 모드입니다.
Definition
편향-분산 트레이드오프는 기대 예측 오차가 참값을 포착하기에는 너무 단순한 모델에서 발생하는 오차인 편향(bias)과 특정 훈련 표본에 너무 민감한 모델에서 발생하는 오차인 분산(variance)으로 분해되며, 모델 복잡성이 이 둘 사이에서 오차를 이동시킨다는 원리입니다.
Scope
이 주제는 기대 예측 오차를 편향, 분산, 그리고 비가역적 노이즈로 분해하는 것; 과적합과 과소적합의 의미; 그리고 균형을 이동시키는 정규화(regularization)의 역할을 다룹니다. 또한 고전적인 U자형 오차 곡선과 과도하게 매개변수화된 모델에서 최근 관찰된 이중 하강(double descent) 현상도 다룹니다.
Core questions
- 기대 오차는 어떻게 편향, 분산, 노이즈로 분해되는가?
- 과적합과 과소적합을 특징짓는 것은 무엇인가?
- 정규화는 편향-분산 균형을 어떻게 이동시키는가?
- 매우 유연한 모델이 높은 용량에도 불구하고 때때로 일반화될 수 있는 이유는 무엇인가?
Key theories
- 편향-분산 분해
- 제곱 오차 손실(squared-error loss)의 경우, 기대 오차는 제곱 편향, 분산, 그리고 비가역적 노이즈로 분리되며, 단순화 가정이 편향을 대가로 분산을 줄이고 그 반대도 마찬가지임을 명시적으로 보여줍니다.
- 과적합 및 정규화
- 과적합은 모델이 신호보다는 노이즈를 포착할 때 발생합니다. 정규화는 복잡성에 페널티를 부과하여 분산을 줄이고, 편향의 작은 증가를 분산의 더 큰 감소와 교환합니다.
- 고전적인 트레이드오프를 넘어서
- 매우 과도하게 매개변수화된 영역에서는 보간점(interpolation point)을 지나 오차가 다시 감소할 수 있는데, 이는 이중 하강 현상으로, 단일 U자형 곡선이라는 고전적인 그림을 복잡하게 만듭니다.
Clinical relevance
편향-분산 트레이드오프는 모델 적합화의 실질적인 핵심으로, 새로운 데이터에 대한 오차를 최소화하기 위해 모델 크기, 정규화 강도, 특징 개수 선택을 안내합니다. 모델이 과소적합되었는지 또는 과적합되었는지 진단하는 것은 응용 기계 학습에서 일상적이고 필수적인 단계입니다.
History
편향-분산 분해는 1992년경 Geman과 동료들에 의해 신경망 및 학습 분야에서 명확히 제시되었고, 통계 및 기계 학습에서 표준적인 관점이 되었습니다. 정규화 이론은 복잡성 제어를 공식화했으며, 최근의 이중 하강 발견은 현대의 과도하게 매개변수화된 모델에 대한 트레이드오프를 재검토하게 만들었습니다.
Key figures
- Stuart Geman
- Trevor Hastie
- Christopher Bishop
Related topics
Seminal works
- hastie2009
- bishop2006
- geman1992
Frequently asked questions
- 과적합과 과소적합의 차이점은 무엇인가요?
- 과소적합은 모델이 너무 단순하여 기본 패턴을 포착하지 못하여 높은 편향과 훈련 데이터에서도 낮은 성능을 보이는 경우입니다. 과적합은 모델이 너무 유연하여 훈련 데이터의 노이즈까지 학습하여 높은 분산과 새로운 데이터에서 낮은 성능을 보이는 경우입니다.
- 정규화는 어떻게 도움이 되나요?
- 정규화는 모델 복잡성에 페널티를 추가하여 극단적이거나 많은 매개변수를 사용하지 않도록 합니다. 이는 분산을 줄이며, 일반적으로 편향의 작은 증가를 대가로 하여, 복잡성이 너무 높을 때 보이지 않는 데이터에 대한 총 오차를 낮춥니다.