ScholarGate
助手

数据分布与正态性

变量的分布描述了其值在可能范围内的散布情况,许多描述性和推断性方法都取决于这种分布的形态。正态性——数据是否遵循对称的钟形正态分布——是健康研究中最常检查的分布假设,因为它决定了参数和非参数汇总与检验的选择。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

统计分布描述了变量可能值的相对频率或概率;正态性指符合高斯(正态)分布,这是一种对称的钟形形态,通过图形和正式检验进行评估,以决定参数方法是否适用。

Scope

本条目涵盖了分布形态(对称性、偏度、峰度)、正态分布及其重要性,以及如何通过图形检查和正式检验评估正态性。它是一个方法学参考,不提供临床指导。

Core questions

  • 变量的分布形态如何,是对称的还是偏斜的?
  • 对于这个变量,正态性假设是否合理?
  • 哪些图形和正式工具最能评估正态性,它们在小样本或大样本中的表现如何?

Key concepts

  • 正态(高斯)分布
  • 偏度和峰度
  • 图形评估(直方图,Q-Q图)
  • Shapiro-Wilk检验
  • Kolmogorov-Smirnov检验
  • 参数与非参数选择
  • 正态性检验的样本量敏感性

Key theories

中心极限定理
中心极限定理指出,对于足够大的样本,均值的抽样分布趋近于正态分布,无论底层变量的形态如何。这就是为什么即使原始数据不正态,正态理论方法也常能适用于均值的原因。

Mechanisms

正态性通过两种互补的方式进行评估。图形方法——直方图和分位数-分位数(Q-Q)图——直接显示偏斜、重尾或双峰等偏差。正式检验,其中Shapiro-Wilk检验是最广泛使用的之一,返回在正态模型下观察到数据的概率。由于这些检验的效力随样本量增加而增强,它们往往在大样本中标记出微不足道的偏差,而在小样本中遗漏有意义的偏差,因此图形检查和非正态性的实际后果与任何检验结果一起权衡。当感兴趣的量是均值时,即使原始数据非正态,中心极限定理也常能证明正态理论方法的合理性。

Clinical relevance

生物标志物、住院时间或评分是否被视为正态,决定了其在整个临床文献中如何被汇总和分析,因此判断正态性是评估研究方法的一部分。本条目描述了分布假设的评估,并非个体诊断或治疗决策的依据。

Epidemiology

许多生物学和临床测量值呈右偏(例如,激素水平、成本和等待时间),因此不能假定正态性,需要常规检查。这一决定影响结果是以均值和标准差报告,还是以中位数和范围报告,以及是使用参数检验还是非参数检验。

History

正态分布在十八世纪和十九世纪由棣莫弗(de Moivre)、拉普拉斯(Laplace)和高斯(Gauss)的工作发展而来,并通过误差理论和中心极限定理成为统计学的核心。二十世纪出现了检查该假设的正式工具,其中Shapiro和Wilk在1965年提出的正态性方差分析检验成为应用工作中的标准程序。

Debates

正态性应通过正式检验还是图形检查来判断?
正式的正态性检验对样本量敏感——在大样本中拒绝微不足道的偏差,而在小样本中未能检测到重要的偏差——因此许多方法学家建议,应以图形评估和计划分析的实际稳健性来指导决策,而不是仅仅依靠检验的p值。

Key figures

  • Samuel S. Shapiro
  • Martin B. Wilk
  • Carl Friedrich Gauss

Related topics

Seminal works

  • shapiro-wilk-1965
  • kwak-2017
  • ghasemi-2012

Frequently asked questions

为什么正态性很重要?
许多常见的汇总统计量(均值、标准差)和检验(t检验、方差分析)都假定数据近似正态;当该假设不成立时,这些度量可能会产生误导,非参数或转换替代方法可能更合适。
显著的Shapiro-Wilk检验结果是否足以放弃参数方法?
仅凭这一点不足够。该检验在大样本中变得非常敏感,而在小样本中效力不足,因此应综合考虑偏差的大小、Q-Q图上显示的形态以及计划分析的稳健性。

Methods for this concept

Related concepts