统计功效与样本量
统计功效是指一项研究在给定效应真实存在时,能够检测出该效应的概率——形式上,即为1减去II型错误率。样本量确定是规划步骤,旨在根据预期效应量、选定的显著性水平和数据的变异性,确定需要多少参与者才能达到目标功效。两者共同决定了一项研究是否足够大,以使其问题有公平的机会获得答案。
Definition
统计功效是指检验正确拒绝错误零假设(检测到指定大小的真实效应)的概率;样本量确定是指计算在给定显著性水平下,为达到目标功效,针对假定效应量和变异性所需的观测数量。
Scope
本主题解释了功效的含义、功效计算的四个相互关联的量(效应量、显著性水平、功效和样本量),以及功效不足研究的后果。它作为规划和评估研究的参考方法论,而非临床决策规则。
Core questions
- 研究检测其所寻找效应的可能性有多大?
- 需要多少参与者才能达到目标功效?
- 效应量、变异性和显著性水平如何驱动样本量?
- 当研究功效不足时会出现什么问题?
Key concepts
- 统计功效(1减去β)
- 效应量
- 显著性水平(α)
- 变异性和标准差
- 先验样本量计算
- 功效不足的研究
- 最小临床重要差异
Mechanisms
功效、显著性水平、效应量和样本量相互关联,因此固定其中任意三个量即可确定第四个量。在给定显著性水平下,随着真实效应量的增加、变异性的减小和样本量的增大,功效会提高。样本量计算则反转了这种关系:从假定的效应量(通常是值得检测的最小效应量)、选定的显著性水平和目标功效(通常为80%或90%)出发,计算所需的观测数量。功效不足不仅增加了错过真实效应(II型错误)的机会,而且使得任何显著性发现更有可能被夸大或错误,因为在小型研究中,只有大且可能被夸大的估计才能达到阈值。
Clinical relevance
试验或研究是否具有足够的功效,决定了其结果应如何解读:一项功效不足研究的非显著性结果在很大程度上是信息不足而非令人放心的,并且前瞻性地证明样本量的合理性是研究报告的预期要素。本条目描述了用于评估和设计目的的功效和样本量推理,并非个体诊断或治疗决策的依据。
Evidence & guidelines
临床试验和观察性研究的报告标准要求进行先验样本量论证,并且方法学综述已记录了低功效的普遍危害。Button及其同事表明,长期功效不足的领域会产生不可靠的文献,而Altman和Bland以及Greenland及其同事的误解指南强调,低功效解释了许多信息不足的零结果。
History
功效是Neyman-Pearson检验框架的直接产物,该框架定义了II型错误率,而功效是其补集。Jacob Cohen从20世纪60年代开始的工作,并在其1988年的专著中得到巩固,在健康和行为科学领域推广了系统的功效分析和效应量惯例。对功效不足研究的担忧在2010年代的可重复性辩论中加剧。
Debates
- 长期功效不足的后果
- 持续的低功效不仅会增加假阴性,还会降低统计显著性发现反映真实效应的概率,并夸大所报告效应的大小,从而损害整个文献的可靠性。
Key figures
- Jacob Cohen
- Jerzy Neyman
- Egon Pearson
- Douglas G. Altman
- John P. A. Ioannidis
Related topics
Seminal works
- cohen-1988
- button-2013
Frequently asked questions
- 用简单的话来说,什么是统计功效?
- 它是指一项研究在给定效应真实存在时,能够检测出该效应的概率。更高的功效意味着更有可能不会错过真实效应;80%的功效是一个常见的目标。
- 为什么样本量如此重要?
- 更大的样本量会增加功效并提高估计的精确度,因此研究可以可靠地检测其所寻找的效应。过小的样本量既有错过真实效应的风险,也可能产生夸大的显著性发现。