抽样分布与中心极限定理
抽样分布是统计量(例如样本均值)在给定大小的所有可能样本中的概率分布。中心极限定理指出,对于足够大的样本,无论基础数据的形状如何,均值的抽样分布都近似正态。它们共同解释了为什么基于正态分布的置信区间和检验如此广泛地适用。
Definition
抽样分布是统计量在从总体中抽取的所有固定大小的可能样本中取值的分布;中心极限定理指出,随着样本量的增加,样本均值的抽样分布趋近于正态分布,无论总体的形状如何。
Scope
本条目涵盖了抽样分布的概念、作为其离散程度的标准误、中心极限定理和样本量的作用,以及个体标准差与统计量标准误之间的区别。它将这些概念与置信区间和假设检验联系起来。它是一个方法学参考,而非临床指导。
Core questions
- 什么是统计量的抽样分布,它为何重要?
- 标准误与标准差有何不同?
- 中心极限定理保证了什么,以及在什么条件下?
- 样本量如何影响估计的精确性?
Key concepts
- 统计量与参数
- 抽样分布
- 标准误
- 标准误与标准差
- 样本量与精确度
- 均值的近似正态性
- 置信区间和检验的基础
Key theories
- 中心极限定理
- 对于来自具有有限方差的总体的独立观测值,随着样本量的增加,样本均值的分布趋向于正态分布,无论总体的形状如何;这证明了即使个体测量值非正态,基于正态分布的均值推断也是合理的。
Mechanisms
如果从总体中抽取相同大小的重复样本,均值等统计量会因样本而异;这些值的分布就是抽样分布,其标准差就是标准误。对于样本均值,标准误等于总体标准差除以样本量的平方根,因此精度随样本的增加而提高,但仅与n的平方根成比例。中心极限定理补充说,对于足够大的样本,即使数据本身是偏斜的,只要观测值是独立的且方差有限,这个抽样分布也近似正态。这是经典推断的引擎:均值的置信区间是通过在近似正态性下从估计值向外扩展若干标准误构建的,许多假设检验将估计值与其抽样分布进行比较。标准误随样本量而缩小,必须与个体观测值的标准差区分开来,后者估计总体离散程度且不缩小。
Clinical relevance
临床和公共卫生研究中报告的置信区间和p值依赖于估计量的抽样分布和中心极限定理,因此理解它们有助于判断报告效应的精确性。本条目是方法学背景知识,并非个体临床决策的基础。
History
中心极限定理的早期形式出现在棣莫弗对二项分布的正态近似以及拉普拉斯约1810年的工作中,严格的一般条件由李雅普诺夫等人在1900年左右确立。抽样分布的观点在20世纪初成为推断的核心,并且仍然是生物统计学中基于正态分布的置信区间和检验的标准依据。
Debates
- 样本量需要多大才能应用中心极限定理?
- 近似程度随样本量增加而提高,但“足够大”的程度取决于数据的偏斜程度;对于明显偏斜的分布,需要更大的样本量才能使均值的分布达到可接受的正态性,因此没有一个单一的经验法则适用于所有情况。
Key figures
- Pierre-Simon Laplace
- Abraham de Moivre
- Aleksandr Lyapunov
Related topics
Seminal works
- altman-bland-2005-se
- rosner-2015
Frequently asked questions
- 标准差和标准误有什么区别?
- 标准差衡量个体观测值的离散程度,而标准误衡量统计量(例如样本均值)在不同样本间的离散程度;标准误随样本量的增加而减小,而标准差估计的是一个固定的总体量。
- 为什么即使数据偏斜,我们也可以对均值使用正态分布?
- 中心极限定理指出,无论数据的形状如何,随着样本量的增加,均值的抽样分布会变得近似正态,因此,只要样本量足够大,即使个体值不呈正态分布,基于正态分布的均值方法也通常是有效的。