부트스트랩 방법
부트스트랩은 관측된 데이터로부터 반복적으로 복원 추출(sampling with replacement)을 통해 표본을 추출하고, 각 재표본(resample)에서 통계량을 재계산함으로써 통계량의 표집 분포(sampling distribution)를 추정합니다.
Definition
부트스트랩은 데이터의 경험적 분포(empirical distribution)로부터 복원 추출된 많은 표본에 대해 추정량을 재계산하여 얻은 분포를 통해 추정량의 표집 분포를 근사하는 재표집(resampling) 방법입니다.
Scope
이 주제는 비모수 부트스트랩(nonparametric bootstrap)과 플러그인 원리(plug-in principle), 모수적(parametric) 및 평활화된(smoothed) 변형, 신뢰 구간 구성(백분위수, 기본, 편향 수정 및 가속화, 부트스트랩-t), 부트스트랩 표준 오차 및 편향 추정치, 그리고 블록 부트스트랩(block bootstrap)과 같은 회귀 및 종속 데이터에 대한 적용을 다룹니다. 제한 사항과 일치성 조건이 강조됩니다.
Core questions
- 데이터로부터 복원 추출하는 것이 실제 표집 분포를 어떻게 근사하는가?
- 부트스트랩 표준 오차와 편향 추정치는 어떻게 계산되는가?
- 백분위수(percentile), 부트스트랩-t(bootstrap-t), 편향 수정 및 가속화(bias-corrected and accelerated) 신뢰 구간의 차이점은 무엇인가?
- 부트스트랩은 언제 일치성을 가지며, 회귀 및 종속 데이터에 어떻게 적용되는가?
Key concepts
- 복원 추출(Sampling with replacement)
- 경험적 분포(Empirical distribution)
- 부트스트랩 표준 오차(Bootstrap standard error)
- 백분위수 구간(Percentile interval)
- 편향 수정 및 가속화 구간(Bias-corrected and accelerated interval)
- 블록 부트스트랩(Block bootstrap)
Key theories
- 플러그인 재표집(Plug-in resampling)
- 모집단 분포를 경험적 분포로 대체하고 거기서 재표집하는 것은 통계량의 표집 분포에 대한 몬테카를로 근사(Monte Carlo approximation)를 제공하며, 이를 통해 표준 오차와 편향을 얻을 수 있습니다.
- 부트스트랩 신뢰 구간(Bootstrap confidence intervals)
- 부트스트랩 분포의 분위수(quantiles)는 백분위수 구간을 제공하며, 편향 수정 및 가속화(bias-corrected and accelerated) 및 부트스트랩-t(bootstrap-t) 구간과 같은 개선된 방법은 추정량 분포의 편향과 왜도(skewness)를 보정하여 커버리지(coverage)를 향상시킵니다.
Clinical relevance
부트스트랩은 중앙값, 상관 계수, 복잡한 모델 출력과 같이 닫힌 형식(closed-form)의 분산이 없는 추정량에 대한 표준 오차와 신뢰 구간을 제공하며, 생물 통계학, 계량 경제학 및 기계 학습에서 불확실성을 정량화하는 데 일상적으로 사용됩니다.
History
에프론(Efron)은 1979년에 잭나이프(jackknife)의 일반화로 부트스트랩을 도입했습니다. 이후 연구를 통해 정교한 신뢰 구간이 개발되고, 일치성 이론(consistency theory)이 확립되었으며, 회귀, 시계열 및 기타 종속 데이터 설정에 대한 변형이 만들어졌습니다.
Debates
- 부트스트랩이 실패하는 경우
- 일반적인 비모수 부트스트랩은 극단값에 의해 좌우되는 통계량, 공간의 경계에 있는 모수, 그리고 강한 종속성(heavy dependence) 하에서는 일치성을 보이지 않을 수 있으며, 이는 m-out-of-n 부트스트랩(m-out-of-n bootstrap) 및 서브샘플링(subsampling)과 같은 수정 방법을 필요로 합니다.
Key figures
- Bradley Efron
- Robert Tibshirani
- Anthony Davison
- David Hinkley
Related topics
Seminal works
- efron1979
- efron1993
Frequently asked questions
- 왜 복원 추출을 하는가?
- 복원 추출은 각 재표본이 원본 데이터와 다르게 하면서도 동일한 크기를 유지하게 하여, 모집단에서 새로운 표본을 추출하는 변동성을 모방합니다. 비복원 추출(without replacement)을 하면 모든 재표본은 단순히 원본 데이터의 순서만 바꾼 것이 될 것입니다.
- 몇 개의 부트스트랩 재표본이 필요한가?
- 표준 오차의 경우 수백 개면 충분하지만, 꼬리 분위수(tail quantiles)에 기반한 신뢰 구간은 극단 분위수가 안정적으로 추정되도록 일반적으로 수천 개 이상이 필요합니다.