데이터 분포 및 정규성
변수의 분포는 그 값이 가능한 범위에 걸쳐 어떻게 퍼져 있는지를 설명하며, 많은 기술적 및 추론적 방법은 그 분포의 형태에 따라 달라집니다. 데이터가 대칭적이고 종 모양의 정규 분포를 따르는지 여부인 정규성은 건강 연구에서 가장 자주 검토되는 분포 가정인데, 이는 모수적 요약 및 검정과 비모수적 요약 및 검정 사이의 선택을 좌우하기 때문입니다.
Definition
통계적 분포는 변수의 가능한 값들의 상대적 빈도 또는 확률을 설명하며, 정규성은 가우시안(정규) 분포와의 일치성을 의미합니다. 가우시안 분포는 대칭적인 종 모양의 형태를 가지며, 모수적 방법이 적절한지 여부를 결정하기 위해 그래프 및 공식적인 검정으로 평가됩니다.
Scope
이 항목은 분포 형태(대칭성, 왜도, 첨도), 정규 분포 및 그 중요성, 그리고 정규성이 그래프 검사와 공식적인 검정을 통해 어떻게 평가되는지를 다룹니다. 이는 방법론적 참고 자료이며 임상적 지침을 제공하지 않습니다.
Core questions
- 변수의 분포는 어떤 형태를 띠며, 대칭적인가 또는 왜곡되었는가?
- 이 변수에 대해 정규성 가정이 합리적인가?
- 어떤 그래프 및 공식 도구가 정규성을 가장 잘 평가하며, 작은 표본 또는 큰 표본에서 어떻게 작동하는가?
Key concepts
- 정규(가우시안) 분포
- 왜도와 첨도
- 그래프 평가(히스토그램, Q-Q 플롯)
- 샤피로-윌크 검정
- 콜모고로프-스미르노프 검정
- 모수적 대 비모수적 선택
- 정규성 검정의 표본 크기 민감도
Key theories
- 중심 극한 정리
- 중심 극한 정리는 충분히 큰 표본의 경우, 평균의 표본 분포가 기본 변수의 형태와 관계없이 정규 분포에 근접한다는 것을 나타냅니다. 이는 원시 데이터가 정규 분포를 따르지 않더라도 평균에 대한 정규 이론 방법이 종종 유용하게 사용될 수 있는 이유입니다.
Mechanisms
정규성은 두 가지 보완적인 방식으로 평가됩니다. 히스토그램과 Q-Q(quantile-quantile) 플롯과 같은 그래프 방법은 왜곡, 두꺼운 꼬리 또는 이봉 분포와 같은 편차를 직접 보여줍니다. 샤피로-윌크 검정(Shapiro-Wilk test)이 가장 널리 사용되는 공식 검정 중 하나이며, 정규 모델 하에서 데이터를 관찰할 확률을 반환합니다. 이러한 검정은 표본 크기가 커질수록 검정력이 증가하므로, 큰 표본에서는 사소한 편차를 감지하는 경향이 있고 작은 표본에서는 의미 있는 편차를 놓치는 경향이 있습니다. 따라서 그래프 검사와 비정규성의 실제적 결과는 모든 검정 결과와 함께 고려됩니다. 관심 있는 양이 평균인 경우, 중심 극한 정리(central limit theorem)는 비정규 원시 데이터에 대해서도 정규 이론 방법을 종종 정당화합니다.
Clinical relevance
생체 지표, 입원 기간 또는 점수가 정규 분포로 처리되는지 여부는 임상 문헌 전반에 걸쳐 어떻게 요약되고 분석되는지를 결정하므로, 정규성을 판단하는 것은 연구 방법론을 평가하는 부분입니다. 이 항목은 분포 가정의 평가를 설명하며, 개별 진단 또는 치료 결정의 근거가 아닙니다.
Epidemiology
많은 생물학적 및 임상적 측정값은 오른쪽으로 치우쳐 있으므로(예: 호르몬 수치, 비용, 대기 시간), 정규성을 가정할 수 없으며 일상적으로 확인됩니다. 이러한 결정은 결과가 평균과 표준 편차로 보고될지 또는 중앙값과 범위로 보고될지, 그리고 모수적 검정을 사용할지 비모수적 검정을 사용할지 결정하는 데 영향을 미칩니다.
History
정규 분포는 18세기와 19세기에 드 무아브르(de Moivre), 라플라스(Laplace), 가우스(Gauss)의 연구에서 발전했으며, 오차 이론과 중심 극한 정리를 통해 통계학의 중심이 되었습니다. 이 가정(정규성)을 확인하기 위한 공식적인 도구는 20세기에 등장했으며, 샤피로(Shapiro)와 윌크(Wilk)의 1965년 정규성 분산 분석 검정은 응용 연구에서 표준 절차가 되었습니다.
Debates
- 정규성을 공식적인 검정으로 판단해야 하는가 아니면 그래프 검사로 판단해야 하는가?
- 공식적인 정규성 검정은 표본 크기에 민감하여, 큰 표본에서는 사소한 편차를 기각하고 작은 표본에서는 중요한 편차를 감지하지 못합니다. 따라서 많은 방법론자들은 검정의 p-값만으로 결정하기보다는 그래프 평가와 계획된 분석의 실제적 강건성(robustness)이 결정을 안내해야 한다고 권고합니다.
Key figures
- Samuel S. Shapiro
- Martin B. Wilk
- Carl Friedrich Gauss
Related topics
Seminal works
- shapiro-wilk-1965
- kwak-2017
- ghasemi-2012
Frequently asked questions
- 정규성이 왜 중요한가요?
- 많은 일반적인 요약 통계량(평균, 표준 편차)과 검정(t-검정, ANOVA)은 대략적으로 정규 분포를 따르는 데이터를 가정합니다. 이 가정이 실패할 경우, 이러한 측정값은 오해를 불러일으킬 수 있으며 비모수적 또는 변환된 대안이 더 적절할 수 있습니다.
- 샤피로-윌크 검정 결과가 유의미하다는 것이 모수적 방법을 포기할 충분한 이유가 되나요?
- 그 자체만으로는 아닙니다. 이 검정은 큰 표본에서는 매우 민감해지고 작은 표본에서는 검정력이 부족해지므로, 편차의 크기, Q-Q 플롯에서 보이는 형태, 그리고 계획된 분석의 강건성을 모두 고려해야 합니다.