正态分布
正态分布,也称为高斯分布或钟形曲线,是一种连续分布,其关于均值对称,并完全由其均值和标准差描述。它是生物统计学中最重要的分布,因为许多测量值都近似于它,并且样本均值倾向于它,使其成为大多数标准推断的基础。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
正态分布是一种连续概率分布,具有对称的钟形密度,完全由两个参数决定:其均值(中心)和标准差(离散程度)。
Scope
本条目涵盖了正态分布的形状和参数、将标准差与覆盖范围相关联的经验法则、标准正态分布和z分数、参考范围,以及个体正态分布与样本均值正态分布之间的区别。它是一个方法学参考,不提供针对个体患者的临床阈值。
Core questions
- 正态分布具有什么形状,由什么决定?
- 分布中有多少比例落在给定数量的标准差之内?
- 什么是z分数,标准化是如何进行的?
- 何时适合假设正态性?
Key concepts
- 均值和标准差
- 对称性和钟形
- 经验(68-95-99.7)法则
- 标准正态分布
- z分数和标准化
- 参考范围
- 偏度和偏离正态性
Mechanisms
正态分布由两个数字确定:均值,它确定了分布的中心;以及标准差,它设定了分布的宽度。大约68%的值落在均值的一个标准差之内,大约95%落在两个标准差之内,大约99.7%落在三个标准差之内——这个经验法则赋予了该分布实际的有用性。任何正态变量都可以通过减去均值并除以标准差进行标准化,从而得到遵循标准正态分布(均值为0,标准差为1)的z分数,这使得一套表格或公式可以适用于所有正态分布。在医学研究中,血液值等测量的参考范围通常由假定正态分布的中间95%构建,并且许多统计检验都假设数据或统计量的抽样分布近似正态。
Clinical relevance
许多生物学测量值在近似正态的假设下进行汇总和比较,并且参考范围也经常由此构建,因此理解该分布有助于解释实验室和研究结果。本条目将该分布描述为方法学,不设定个体的诊断临界值。
History
钟形曲线在十八世纪从棣莫弗对二项分布的近似中出现,并由拉普拉斯和高斯发展,后者将其用于测量误差分析,因此它常被称为高斯分布。在十九世纪和二十世纪,它成为测量生物量值的默认模型和经典统计推断的基石。
Debates
- 何时假设正态性会产生误导?
- 许多生物变量是偏斜而非对称的,将其视为正态可能会扭曲参考范围和检验;是转换数据、使用非参数方法,还是依赖均值的中心极限定理,这是一个反复出现的方法学判断。
Key figures
- Carl Friedrich Gauss
- Pierre-Simon Laplace
- Abraham de Moivre
Related topics
Seminal works
- altman-bland-1995-normal
- rosner-2015
Frequently asked questions
- 什么是68-95-99.7法则?
- 对于正态分布,大约68%的值落在均值的一个标准差之内,大约95%落在两个标准差之内,大约99.7%落在三个标准差之内;这个经验法则将标准差与覆盖值的比例直接联系起来。
- 数据必须是正态分布才能在推断中使用正态分布吗?
- 不总是如此;许多方法依赖于均值的抽样分布根据中心极限定理近似正态,即使个体测量值不是正态分布,只要样本量足够大,这也可以成立。