변동성 측정치
변동성 또는 산포 측정치는 일련의 관측값이 중심을 기준으로 얼마나 퍼져 있는지를 정량화합니다. 두 데이터 세트가 동일한 평균을 가질 수 있지만, 값들이 얼마나 밀접하게 군집되어 있는지에 따라 크게 다를 수 있으며, 범위, 분산, 표준편차, 사분위수 범위와 같은 측정치는 이러한 차이를 포착합니다.
Definition
변동성 측정치는 중심값을 기준으로 관측값의 확산 정도를 정량화합니다. 범위는 가장 큰 값과 가장 작은 값의 차이이며, 분산은 평균으로부터의 편차를 제곱한 값의 평균이고, 표준편차는 분산의 제곱근으로 원래 단위로 표현되며, 사분위수 범위는 정렬된 데이터의 중간 절반의 확산 정도를 나타냅니다.
Scope
이 항목은 주요 산포 측정치인 범위, 분산, 표준편차, 사분위수 범위와 각각의 계산 및 해석 방법을 다룹니다. 또한 표준편차와 표준오차를 구별하며, 임상적 지침이 아닌 방법론적 참고 자료입니다.
Core questions
- 관측값은 중심을 기준으로 얼마나 넓게 퍼져 있는가?
- 선택된 위치 측정치와 적절하게 짝을 이루는 산포 측정치는 무엇인가?
- 표준편차는 표준오차와 어떻게 다른가?
Key concepts
- 범위
- 분산
- 표준편차
- 사분위수 범위
- 변동 계수
- 표준편차 대 표준오차
- 산포와 중심 경향의 짝짓기
Mechanisms
극단값 사이의 간격인 범위는 단순하지만 두 값에만 의존하고 표본 크기에 따라 증가하기 때문에 불안정합니다. 분산은 관측값의 평균으로부터의 편차를 제곱한 값의 평균이며, 표준편차는 이 값을 원래 측정 단위로 되돌려 놓으므로, 대략적으로 대칭적인 데이터의 경우 평균의 자연스러운 동반자입니다. 25번째 백분위수부터 75번째 백분위수까지를 아우르는 사분위수 범위는 데이터의 중간 절반을 설명하며 이상치에 강건하므로, 비대칭 분포의 경우 중앙값의 동반자입니다. 반복적으로 혼동되는 원천은 개별 관측값의 확산 정도를 설명하는 표준편차와 평균과 같은 추정치의 정밀도를 설명하며 표본이 커질수록 줄어드는 표준오차의 차이입니다.
Clinical relevance
산포 측정치는 측정값이나 결과가 얼마나 가변적인지를 독자에게 알려주며, 이는 일관성, 참조 범위, 보고된 추정치의 정밀도를 판단하는 데 중요합니다. 이 항목은 변동성이 평가를 위해 어떻게 요약되는지를 설명하며, 개별 진단 또는 치료 결정의 근거가 아닙니다.
Epidemiology
중심 경향과 함께 변동성을 보고하는 것은 보건 연구의 기본적인 기대치이며, 표준편차와 표준오차의 구별은 흔한 보고 오류입니다. 이들을 혼동하면 추정치가 실제보다 더 정밀하거나 덜 정밀하게 보일 수 있습니다. 데이터가 비대칭일 때는 사분위수 범위가 선호됩니다.
History
분산과 표준편차는 19세기 후반과 20세기 초반에 정립되었으며, 표준편차라는 용어는 칼 피어슨(Karl Pearson)이 도입했고, 분산의 분석적 틀은 로널드 피셔(Ronald Fisher)에 의해 개발되었습니다. 강건하고 분위수 기반의 사분위수 범위는 20세기에 탐색적 데이터 분석과 상자 그림(box plot)의 부상과 함께 중요성을 얻었습니다.
Debates
- 보고 시 표준편차 또는 표준오차?
- 저자들은 수치적으로 더 작다는 이유로 표준편차 대신 표준오차를 보고하는 경우가 많으며, 이는 독자들에게 기본 관측값의 변동성에 대해 오해를 불러일으킬 수 있습니다. 방법론적 지침은 확산 정도를 설명하기 위해 표준편차를 보고하고, 추정치의 정밀도를 위해 표준오차를 사용하도록 강조합니다.
Key figures
- Douglas G. Altman
- J. Martin Bland
- S. Manikandan
Related topics
Seminal works
- manikandan-2011-dispersion
- altman-bland-2005
Frequently asked questions
- 표준편차와 표준오차의 차이점은 무엇입니까?
- 표준편차는 개별 관측값이 평균을 중심으로 얼마나 변동하는지를 설명하는 반면, 표준오차는 평균 자체가 얼마나 정밀하게 추정되는지를 설명합니다. 표준오차는 표본 크기가 증가함에 따라 감소하지만, 표준편차는 그렇지 않습니다.
- 표준편차 대신 사분위수 범위를 언제 사용해야 합니까?
- 데이터가 비대칭이거나 이상치를 포함할 때, 사분위수 범위는 중앙값과 마찬가지로 극단값의 영향을 받지 않으므로 확산 정도를 더 충실하게 설명합니다.