ScholarGate
어시스턴트

교차 검증

교차 검증은 표본의 일부에 모델을 반복적으로 적합시키고 나머지 부분에서 오류를 측정함으로써 모델이 새로운 데이터를 얼마나 잘 예측할지 추정합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

교차 검증은 데이터를 상호 보완적인 하위 집합으로 분할하고, 일부 하위 집합에 적합시키고 다른 하위 집합에서 예측 오류를 평가하며, 분할된 결과들을 평균하여 모델의 표본 외 예측 오류를 추정하는 재표본 추출 절차입니다.

Scope

이 주제는 LOOCV(leave-one-out cross-validation) 및 k-겹 교차 검증, 검증 세트 및 반복 교차 검증 방식, 모델 선택 및 튜닝 매개변수 선택을 위한 사용, 오류 추정치의 편향-분산 상충 관계, 정보 유출 및 표본 내 오류의 낙관론과 같은 함정을 다룹니다. 재표본 추출 기반 평가에서의 역할이 강조됩니다.

Core questions

  • 데이터를 보류하고 예측하는 것이 일반화 오류를 어떻게 추정합니까?
  • LOOCV(leave-one-out)와 k-겹 교차 검증을 구별하는 상충 관계는 무엇입니까?
  • 교차 검증은 모델을 선택하고 하이퍼파라미터를 튜닝하는 데 어떻게 사용됩니까?
  • 정보 유출 방지와 같은 어떤 관행이 유효한 추정치를 얻는 데 필요합니까?

Key concepts

  • k-겹 분할
  • LOOCV(Leave-one-out cross-validation)
  • 검증 세트
  • 일반화 오류
  • 모델 선택
  • 정보 유출

Key theories

교차 검증 평가
데이터의 한 부분에 적합시키고 분리된 부분에서 평가하는 것은 예측 오류 추정치를 제공하며, 이는 폴드에 걸쳐 평균화될 때 독립적인 미래 데이터에 대한 모델의 오류를 근사합니다.
오류 추정치의 편향-분산
LOOCV(Leave-one-out cross-validation)는 거의 편향되지 않지만 분산이 높을 수 있는 반면, 적당한 k를 가진 k-겹 교차 검증은 작은 상향 편향을 더 낮은 분산과 교환하여, 일반적으로 5개 또는 10개의 폴드를 선택하는 데 영향을 미칩니다.

Clinical relevance

교차 검증은 모델 선택, 정규화 및 기타 하이퍼파라미터 튜닝, 그리고 정직한 예측 성능 보고를 위한 표준 도구입니다. 이는 데이터 기반 과학 전반에 걸쳐 통계 학습 및 기계 학습 실습의 핵심입니다.

History

교차 검증 아이디어는 1974년 Stone과 Geisser에 의해 예측 모델을 평가하고 선택하는 원칙적인 방법으로 공식화되었습니다. 통계 및 기계 학습의 폭발적인 성장은 k-겹 교차 검증을 모델 평가의 일상적인 기본값으로 만들었습니다.

Debates

교차 검증 추정치의 편향 및 분산
폴드가 겹치고 결과 오류 추정치가 상관 관계를 가지므로, 얼마나 많은 폴드를 사용해야 하는지, 그리고 교차 검증된 오류에 대한 유효한 불확실성 추정치를 얻는 방법에 대한 지속적인 논의가 있습니다.

Key figures

  • Mervyn Stone
  • Seymour Geisser
  • Trevor Hastie
  • Robert Tibshirani

Related topics

Seminal works

  • stone1974
  • hastie2009

Frequently asked questions

모델을 적합시키는 데 사용된 데이터에서 오류를 측정하지 않는 이유는 무엇입니까?
표본 내 오류는 모델이 해당 데이터에 맞춰 조정되었기 때문에 낙관적이며, 따라서 새로운 데이터에 대한 오류를 과소평가합니다. 교차 검증은 모델이 적합 과정에서 보지 못한 데이터에 대한 예측을 평가하여 더 정직한 추정치를 제공합니다.
몇 개의 폴드를 사용해야 합니까?
5개 또는 10개의 폴드는 편향과 분산의 균형을 맞추고 계산을 관리하기 쉽게 하는 일반적인 선택입니다. LOOCV(Leave-one-out)는 관측치 수만큼 많은 폴드를 사용하여 낮은 편향을 제공하지만 분산이 높고 비용이 더 많이 듭니다.

Methods for this concept

Related concepts