估计和假设检验有什么区别？

估计旨在确定未知量的大小以及我们对其了解的精确程度，产生点估计和区间；假设检验旨在确定数据是否与特定主张相符，并产生决策或p值。它们是同一基础统计量的互补视角。

为什么统计推断是必要的？

因为我们几乎从不观察整个总体；我们处理的是随机变化的样本，因此我们需要正式的方法来区分信号和抽样变异性，并为我们的结论附上真实的不确定性。

统计估计与推断

统计估计与推断是生物统计学的一个分支，旨在从有限的、可变的样本中对总体得出结论。它为两项互补的任务提供了正式的机制：估计未知量（例如均值、比例或治疗效果）及其不确定性范围，以及检验观测数据是否与既定假设相符。这些工具共同将原始研究数据转化为关于世界的量化、具有不确定性意识的陈述。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

统计推断是利用观测样本以及这些观测如何产生的概率模型，来估计总体参数并量化这些参数的不确定性或检验关于这些参数的假设的过程。

Scope

本领域旨在引导读者了解健康研究中反复出现的核心概念：点估计和区间估计、置信区间、假设检验框架、它可能产生的两种决策错误，以及可靠检测效应所需的统计功效和样本量。它将这些视为评估和设计研究的方法学参考主题，而非临床决策规则。

Sub-topics

Core questions

我们对未知总体量的最佳单一估计是什么，其不确定性如何？
哪些值范围与观测数据合理一致？
数据是否与特定的零假设相符，或者它们是否提供了反对该假设的证据？
需要多大的样本量才能以可接受的错误率检测到给定大小的效应？

Key concepts

总体参数与样本统计量
抽样分布与标准误
点估计
区间估计与置信区间
零假设与备择假设
P值
I型和II型错误
统计功效
样本量确定

Key theories

内曼-皮尔逊决策理论: 将假设检验构建为受控长期错误率下的两种假设之间的决策，引入了I型和II型错误以及固定显著性水平下最强检验的正式概念。
带不确定性的估计范式: 认为报告带有置信区间的效应估计比单纯的显著性判断传达了更多信息，将重点从效应是否存在转移到效应可能有多大。

Mechanisms

推断基于将数据与未知参数联系起来的概率模型，以及抽样分布的概念：即在重复抽样中可能出现的估计值的分布。估计将该抽样分布概括为点估计加上精确度量（标准误），然后将其转化为区间。假设检验将相同的分布重新定义为决策问题，将观测数据与零假设的预测进行比较，并控制假阳性和假阴性结论的概率。P值和置信区间是这一单一基础计算的两个方面，两者都经常被误解，因此仔细定义至关重要。

Clinical relevance

健康文献中几乎所有的定量发现——风险比、均值差、诊断准确性数据——都是带有不确定性的推断性陈述。因此，理解估计和推断对于阅读和评估证据，以及判断报告的效应是否精确、合理和具有足够的功效至关重要。本领域描述了此类证据是如何产生和解释的；它不是个体诊断或治疗决策的基础。

Evidence & guidelines

专业机构已发布明确指南，以遏制推断统计的常见滥用。美国统计协会2016年关于p值的声明阐述了其正确解释的原则，格陵兰（Greenland）及其同事的配套指南列举了对p值、置信区间和功效的25种常见误解。加德纳（Gardner）和奥特曼（Altman）早期呼吁优先使用置信区间而非单纯的p值，这塑造了医学期刊的报告惯例。

History

现代推断起源于20世纪初的两个部分对立的传统：费舍尔（Fisher）的显著性检验和p值，以及内曼（Neyman）和皮尔逊（Pearson）于1933年形式化的决策理论检验框架。置信区间，也主要归功于内曼，提供了一种以估计为中心的补充观点。在20世纪后期，统计学家和流行病学家越来越多地批评对显著性阈值的机械依赖，最终在2010年代统计学界发布了正式的警示声明。

Debates

显著性检验与估计: 一场长期争论质疑二分法的显著性判断是否具有误导性，许多方法学家认为效应估计和置信区间应优先于p值阈值。

Key figures

Jerzy Neyman
Egon Pearson
Ronald A. Fisher
Douglas G. Altman
Sander Greenland

Seminal works

neyman-pearson-1933
gardner-altman-1986
wasserstein-lazar-2016

Frequently asked questions

估计和假设检验有什么区别？: 估计旨在确定未知量的大小以及我们对其了解的精确程度，产生点估计和区间；假设检验旨在确定数据是否与特定主张相符，并产生决策或p值。它们是同一基础统计量的互补视角。
为什么统计推断是必要的？: 因为我们几乎从不观察整个总体；我们处理的是随机变化的样本，因此我们需要正式的方法来区分信号和抽样变异性，并为我们的结论附上真实的不确定性。