카이제곱 및 피셔 정확 검정
카이제곱 검정과 피셔 정확 검정은 분할표(contingency table)에서 두 범주형 변수가 연관되어 있는지 또는 독립적인지 여부를 묻는 두 가지 표준 절차입니다. 카이제곱 검정은 독립성 가정 하에 기대되는 셀 빈도와 관찰된 셀 빈도를 대규모 표본 근사를 사용하여 비교하는 반면, 피셔 정확 검정은 관찰된 표의 확률을 직접 계산하며 빈도가 작을 때 사용됩니다.
Definition
연관성에 대한 카이제곱 검정은 독립성이라는 귀무가설 하에 관찰된 셀 빈도와 기대되는 셀 빈도 간의 불일치를 측정하고, 그 결과 통계량을 카이제곱 분포에 참조합니다. 반면 피셔 정확 검정은 주변 합계(margins)를 고정한 초기하 분포로부터 관찰된 표와 같거나 더 극단적인 표들의 정확한 확률을 계산합니다.
Scope
이 항목은 피어슨의 카이제곱 통계량과 그 자유도, 카이제곱 근사를 정당화하는 기대 빈도 조건, 연속성(Yates) 수정, 초기하 분포(hypergeometric distribution)에 기반한 피셔 정확 검정의 논리, 그리고 정확 검정이 근사를 대체해야 하는 실질적인 시점에 대해 다룹니다. 이들은 연관성 검정으로 제시되며, 임상적 지침이 아니며, 연관성이 존재하는지 여부를 평가할 뿐 그 크기는 평가하지 않는다는 점을 명시합니다.
Core questions
- 이 표의 두 범주형 변수는 독립적인가, 아니면 연관성의 증거가 있는가?
- 카이제곱 통계량은 관찰된 빈도와 기대 빈도로부터 어떻게 형성되며, 몇 개의 자유도를 가지는가?
- 카이제곱 근사를 신뢰하기에는 기대 빈도가 언제 너무 작은가?
- 피셔 정확 검정은 대규모 표본 근사를 어떻게 피하며, “주변 합계에 조건화(conditioning on the margins)”한다는 것은 무엇을 의미하는가?
Key concepts
- 관찰된 빈도 대 기대 빈도
- 피어슨 카이제곱 통계량
- 자유도 (r-1)(c-1)
- 대규모 표본 (점근적) 근사
- 기대 빈도 경험 법칙
- Yates 연속성 수정
- 초기하 분포 및 고정된 주변 합계
- 정확 p-값 대 점근적 p-값
Mechanisms
독립성 가정 하에서 각 셀의 기대 빈도는 해당 행의 총합과 해당 열의 총합을 곱한 후 전체 총합으로 나눈 값입니다. 피어슨의 카이제곱 통계량은 관찰된 빈도와 기대 빈도 간의 제곱 차이를 기대 빈도로 나눈 값을 모든 셀에 걸쳐 합산합니다. r×c 표의 경우 이 통계량은 (r−1)(c−1) 자유도를 가진 카이제곱 분포와 비교되며, 이 자유도 결과는 피셔가 1922년에 명확히 했습니다. 기대 빈도가 작을 때 근사의 정확도가 떨어지므로, 기대 빈도가 일반적으로 약 5를 초과해야 한다는 일반적인 지침이 있습니다. Yates 연속성 수정은 2×2 근사를 개선하기 위해 제안되었습니다. 피셔 정확 검정은 행과 열의 주변 합계를 고정된 것으로 간주하고 초기하 분포로부터 관찰된 표와 모든 더 극단적인 표의 정확한 확률을 계산하여 p-값으로 합산함으로써 근사를 회피합니다. 정확 검정이기 때문에 희소한 표(sparse tables)에 선호되지만, 검토에 따르면 조건부적이고 보수적인 특성이 있으며, 사용 가능한 검정들 중에서 특정 선택을 권장합니다.
Clinical relevance
어떤 연구가 노출이 결과와 연관되어 있는지 아닌지를 보고하는지는 종종 이러한 검정 중 하나에 달려 있으므로, 이들이 무엇을 하는지 — 그리고 작은 p-값이 연관성을 나타내지만 그 크기에 대해서는 아무것도 말해주지 않는다는 점 — 를 이해하는 것은 보건 연구를 평가하는 데 중요합니다. 이 검정들은 연관성의 증거를 평가하기 위한 도구이며, 개별 진단 또는 치료 결정의 근거가 아닙니다.
Epidemiology
카이제곱 및 피셔 정확 검정은 역학 및 임상 연구 전반에 걸쳐 2×2 및 더 큰 분할표에 대한 기본 유의성 검정이며, 동일한 연관성을 정량화하는 위험비(risk ratios) 및 오즈비(odds ratios)와 함께 사용됩니다. 정확 검정은 카이제곱 근사가 신뢰할 수 없는 작은 표본이나 희귀 사건에 대해 일상적으로 사용됩니다.
History
칼 피어슨은 1900년에 카이제곱 적합도 통계량을 도입했습니다. 피셔의 1922년 논문은 분할표의 자유도를 수정했으며, 피셔는 나중에 작은 표본을 위해 자신의 이름을 딴 정확 검정을 고안했습니다. Yates는 1934년에 2×2 표에 대한 연속성 수정을 제안했습니다. 이러한 절차들과 관련 절차들 사이의 현대적 권장 사항은 방법론적 검토와 교과서에서 종합되었습니다.
Debates
- 작은 2×2 표에 대한 정확 검정 대 점근적 검정
- 피셔 정확 검정은 양쪽 주변 합계에 조건화되며 정확하지만 보수적인 경향이 있는 반면, 수정되지 않은 카이제곱은 작은 표본에 대해 반보수적일 수 있고 Yates 수정은 과도하게 수정합니다. 따라서 검토에서는 단일 규칙보다는 미묘한 권장 사항을 제시합니다.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Frank Yates
- Alan Agresti
Related topics
Seminal works
- pearson-1900
- fisher-1922
- lydersen-2009
Frequently asked questions
- 카이제곱 검정 대신 피셔 정확 검정을 언제 사용해야 합니까?
- 표가 작거나 희소할 때 — 일반적으로 하나 이상의 기대 셀 빈도가 낮을 때 — 카이제곱 대규모 표본 근사는 신뢰할 수 없으므로, 정확한 확률을 계산하는 피셔 정확 검정이 선호됩니다.
- 유의미한 카이제곱 검정 결과가 연관성의 강도를 알려줍니까?
- 아닙니다. 이 검정들은 연관성의 증거가 있는지 여부를 나타냅니다. 연관성의 크기는 위험비 또는 오즈비와 같은 별도의 효과 측정치로 전달되며, 이는 p-값과 함께 보고되어야 합니다.