二项分布和泊松分布
二项分布和泊松分布是生物统计学中最常用的两种离散分布。二项分布描述了在固定次数的独立是/否试验中成功的次数,而泊松分布描述了当事件以恒定平均速率发生时,在固定的时间或空间间隔内发生的事件数量。两者都对计数进行建模,这在健康数据中普遍存在。
Definition
二项分布给出了在固定次数n的独立试验中获得给定成功次数的概率,每次试验都有成功概率p;泊松分布给出了在固定间隔内给定事件数量的概率,当事件以恒定的平均速率独立发生时。
Scope
本条目涵盖了二项分布和泊松分布的假设、参数、均值和方差,它们各自描述的场景,它们之间的关系,以及它们的正态近似。它阐述了它们在健康研究中用于比例和事件率的用途。它是一个方法学参考,而非临床指导。
Core questions
- 哪些假设定义了二项式情境与泊松式情境?
- 如何确定每种分布的均值和方差?
- 泊松分布何时近似于二项分布?
- 每种分布何时可以被正态分布近似?
Key concepts
- 伯努利试验
- 试验次数n和成功概率p
- 二项分布的均值和方差
- 泊松分布的速率参数
- 泊松分布均值和方差的相等性
- 泊松分布对二项分布的近似
- 正态近似
- 计数、比例和事件率
Mechanisms
二项分布源于固定次数n的独立试验,每次试验都是具有相同成功概率p的伯努利试验;成功次数的均值为np,方差为np(1-p)。泊松分布是当n很大且p很小,而它们的乘积(预期计数)保持适中时,二项分布的极限,因此它模拟了在许多机会中发生的罕见事件;它只有一个参数,该参数等于其均值和方差,反映了事件以恒定速率发生。当n很大,或当泊松均值很大时,这两种分布都可以用正态分布来近似,这就是为什么比例和比率的方法通常借用基于正态的置信区间和检验。在健康研究中,二项分布是比例分析的基础,例如对治疗有反应的患者数量,而泊松分布是计数和发病率的基础,例如在一段时间内人群中的新病例数量。
Clinical relevance
二项式和泊松模型是整个健康文献中报告的比例和事件率分析的基础,因此识别哪种模型适用有助于批判性阅读关于反应率和疾病发病率的结果。本条目是方法论性的,不指导个体护理。
Epidemiology
泊松分布是累积在人时(person-time)上的相对罕见事件计数的自然模型,因此它是流行病学中发病率分析的基础;二项分布是风险和比例分析的基础,例如封闭群体中的累积发病率。
History
雅各布·伯努利(Jacob Bernoulli)在其1713年发表的重复试验分析中研究了二项分布,德莫瓦(de Moivre)后来推导出了它的正态近似。西梅翁·德尼·泊松(Siméon Denis Poisson)在1837年引入了以他名字命名的分布,作为二项分布在罕见事件情况下的极限。当统计学应用于医学和公共卫生时,两者都成为建模计数的标准工具。
Key figures
- Jacob Bernoulli
- Siméon Denis Poisson
- Abraham de Moivre
Related topics
Seminal works
- rosner-2015
- armitage-2002
- ross-2014
Frequently asked questions
- 我如何知道是使用二项式模型还是泊松模型?
- 当存在固定次数的独立是/否试验并计算成功次数时,使用二项式模型;当您在连续的时间或空间间隔内以大致恒定的速率计算发生的事件,且没有固定试验次数时,使用泊松模型。
- 为什么泊松分布的均值等于其方差?
- 这源于该分布作为二项分布在罕见事件情况下的极限结构;这种相等性也是一个实际的检验,因为方差远大于均值(过度离散)的计数数据可能不符合简单的泊松模型。