何时应使用费雪精确检验而非卡方检验？

当表格较小或稀疏时——通常是当一个或多个预期单元格计数较低时——卡方大样本近似可能不可靠，此时更倾向于使用计算精确概率的费雪精确检验。

显著的卡方检验是否能告诉我关联的强度？

不能。这些检验表明是否存在关联的证据；关联的大小由单独的效应量（如风险比或优势比）来传达，应与p值一同报告。

卡方检验和费雪精确检验

卡方检验和费雪精确检验是用于判断列联表中两个分类变量之间是否存在关联或独立性的两种标准程序。卡方检验通过大样本近似法比较观察到的单元格计数与独立性假设下的预期计数，而费雪精确检验则直接计算观察到的表格的概率，并用于计数较小的情况。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

关联性的卡方检验衡量的是在独立性零假设下，观察到的单元格计数与预期单元格计数之间的差异，并将所得统计量与卡方分布进行比较；费雪精确检验则通过固定边际的超几何分布，计算观察到的表格以及比其更极端的所有表格的精确概率。

Scope

本条目涵盖了皮尔逊卡方统计量及其自由度、证明卡方近似合理性的预期计数条件、连续性（耶茨）校正、基于超几何分布的费雪精确检验的逻辑，以及何时应使用精确检验而非近似检验的实际问题。它将这些检验作为关联性检验而非临床指导进行介绍，并指出它们评估的是关联是否存在，而非关联的大小。

Core questions

此表中的两个分类变量是独立的，还是存在关联的证据？
卡方统计量是如何由观察计数和预期计数形成的，它有多少自由度？
当预期计数过小时，卡方近似为何不可信？
费雪精确检验如何避免大样本近似，以及“条件化于边际”意味着什么？

Key concepts

观察计数与预期计数
皮尔逊卡方统计量
自由度 (r-1)(c-1)
大样本（渐近）近似
预期计数经验法则
耶茨连续性校正
超几何分布和固定边际
精确p值与渐近p值

Mechanisms

在独立性假设下，每个单元格的预期计数是其行总数乘以其列总数再除以总计。皮尔逊卡方统计量将所有单元格中观察计数与预期计数之间差值的平方除以预期计数再求和；对于r×c表格，此统计量与具有(r−1)(c−1)自由度的卡方分布进行比较，这是费雪在1922年阐明的自由度结果。当预期计数较小时，近似效果会下降，因此通常建议预期计数应普遍超过约五；耶茨连续性校正旨在改善2×2表格的近似效果。费雪精确检验通过将行和列边际视为固定，并从超几何分布计算观察到的表格以及所有更极端表格的精确概率，然后将它们相加得到p值，从而避免了近似。由于它是精确的，因此更适用于稀疏表格，尽管评论指出其条件性、保守性，并建议在可用检验中进行特定选择。

Clinical relevance

一项研究报告某种暴露是否与某种结果相关联，往往取决于这些检验之一，因此理解它们的作用——以及小的p值表示存在关联但并未说明其大小——是评估健康研究的一部分。这些检验是评估关联证据的工具，而不是个体诊断或治疗决策的基础。

Epidemiology

卡方检验和费雪精确检验是流行病学和临床研究中2×2及更大列联表的默认显著性检验，与量化相同关联的风险比和优势比一同使用。对于小样本或罕见事件，当卡方近似不可靠时，通常会调用精确检验。

History

卡尔·皮尔逊于1900年引入了卡方拟合优度统计量；费雪1922年的论文修正了列联表的自由度，费雪后来为小样本设计了以他名字命名的精确检验。耶茨于1934年提出了2×2表格的连续性校正。关于这些及相关程序的现代建议已在方法学综述和教科书中进行了综合。

Debates

小2×2表格的精确检验与渐近检验: 费雪精确检验以两个边际为条件，是精确的但往往保守；而未校正的卡方检验对于小样本可能反保守，耶茨校正则过度校正；因此，综述给出了细致的建议而非单一规则。

Key figures

Karl Pearson
Ronald A. Fisher
Frank Yates
Alan Agresti

Seminal works

pearson-1900
fisher-1922
lydersen-2009

Frequently asked questions

何时应使用费雪精确检验而非卡方检验？: 当表格较小或稀疏时——通常是当一个或多个预期单元格计数较低时——卡方大样本近似可能不可靠，此时更倾向于使用计算精确概率的费雪精确检验。
显著的卡方检验是否能告诉我关联的强度？: 不能。这些检验表明是否存在关联的证据；关联的大小由单独的效应量（如风险比或优势比）来传达，应与p值一同报告。