为什么正态性很重要？

许多常见的汇总统计量（均值、标准差）和检验（t检验、方差分析）都假定数据近似正态；当该假设不成立时，这些度量可能会产生误导，非参数或转换替代方法可能更合适。

显著的Shapiro-Wilk检验结果是否足以放弃参数方法？

仅凭这一点不足够。该检验在大样本中变得非常敏感，而在小样本中效力不足，因此应综合考虑偏差的大小、Q-Q图上显示的形态以及计划分析的稳健性。

数据分布与正态性

变量的分布描述了其值在可能范围内的散布情况，许多描述性和推断性方法都取决于这种分布的形态。正态性——数据是否遵循对称的钟形正态分布——是健康研究中最常检查的分布假设，因为它决定了参数和非参数汇总与检验的选择。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

统计分布描述了变量可能值的相对频率或概率；正态性指符合高斯（正态）分布，这是一种对称的钟形形态，通过图形和正式检验进行评估，以决定参数方法是否适用。

Scope

本条目涵盖了分布形态（对称性、偏度、峰度）、正态分布及其重要性，以及如何通过图形检查和正式检验评估正态性。它是一个方法学参考，不提供临床指导。

Core questions

变量的分布形态如何，是对称的还是偏斜的？
对于这个变量，正态性假设是否合理？
哪些图形和正式工具最能评估正态性，它们在小样本或大样本中的表现如何？

Key concepts

正态（高斯）分布
偏度和峰度
图形评估（直方图，Q-Q图）
Shapiro-Wilk检验
Kolmogorov-Smirnov检验
参数与非参数选择
正态性检验的样本量敏感性

Key theories

中心极限定理: 中心极限定理指出，对于足够大的样本，均值的抽样分布趋近于正态分布，无论底层变量的形态如何。这就是为什么即使原始数据不正态，正态理论方法也常能适用于均值的原因。

Mechanisms

正态性通过两种互补的方式进行评估。图形方法——直方图和分位数-分位数（Q-Q）图——直接显示偏斜、重尾或双峰等偏差。正式检验，其中Shapiro-Wilk检验是最广泛使用的之一，返回在正态模型下观察到数据的概率。由于这些检验的效力随样本量增加而增强，它们往往在大样本中标记出微不足道的偏差，而在小样本中遗漏有意义的偏差，因此图形检查和非正态性的实际后果与任何检验结果一起权衡。当感兴趣的量是均值时，即使原始数据非正态，中心极限定理也常能证明正态理论方法的合理性。

Clinical relevance

生物标志物、住院时间或评分是否被视为正态，决定了其在整个临床文献中如何被汇总和分析，因此判断正态性是评估研究方法的一部分。本条目描述了分布假设的评估，并非个体诊断或治疗决策的依据。

Epidemiology

许多生物学和临床测量值呈右偏（例如，激素水平、成本和等待时间），因此不能假定正态性，需要常规检查。这一决定影响结果是以均值和标准差报告，还是以中位数和范围报告，以及是使用参数检验还是非参数检验。

History

正态分布在十八世纪和十九世纪由棣莫弗（de Moivre）、拉普拉斯（Laplace）和高斯（Gauss）的工作发展而来，并通过误差理论和中心极限定理成为统计学的核心。二十世纪出现了检查该假设的正式工具，其中Shapiro和Wilk在1965年提出的正态性方差分析检验成为应用工作中的标准程序。

Debates

正态性应通过正式检验还是图形检查来判断？: 正式的正态性检验对样本量敏感——在大样本中拒绝微不足道的偏差，而在小样本中未能检测到重要的偏差——因此许多方法学家建议，应以图形评估和计划分析的实际稳健性来指导决策，而不是仅仅依靠检验的p值。

Key figures

Samuel S. Shapiro
Martin B. Wilk
Carl Friedrich Gauss

Seminal works

shapiro-wilk-1965
kwak-2017
ghasemi-2012

Frequently asked questions

为什么正态性很重要？: 许多常见的汇总统计量（均值、标准差）和检验（t检验、方差分析）都假定数据近似正态；当该假设不成立时，这些度量可能会产生误导，非参数或转换替代方法可能更合适。
显著的Shapiro-Wilk检验结果是否足以放弃参数方法？: 仅凭这一点不足够。该检验在大样本中变得非常敏感，而在小样本中效力不足，因此应综合考虑偏差的大小、Q-Q图上显示的形态以及计划分析的稳健性。