数据描述和汇总统计
数据描述和汇总统计是生物统计学的一个分支,旨在组织、浓缩和呈现一系列观测数据,以便其基本特征能够一目了然。在进行任何推断之前,研究人员会使用数值汇总和图形显示来描述数据的分布方式、集中位置、离散程度以及形状。
Definition
数据描述和汇总统计包括用于表征数据集的中心位置、离散程度、分布形状和结构(在对总体进行推断性概括之前且独立于此)的数值和图形方法。
Scope
本领域旨在引导读者了解生物统计学的描述性方面:包括描述性统计学整体、数据分布和正态性、集中趋势度量、变异性度量以及数据可视化。它是一个关于如何汇总健康数据的参考概述,而非分析或临床行动的处方。
Sub-topics
Core questions
- 数据的中心在哪里,哪种位置度量最能代表它?
- 观测值的变异程度如何,这种离散程度如何量化?
- 分布的形状是什么,它是否近似正态?
- 如何显示数据才能使其模式、偏度和异常值可见?
Key concepts
- 描述性统计与推断性统计
- 集中趋势度量(均值、中位数、众数)
- 变异性度量(全距、方差、标准差、四分位距)
- 分布形状、偏度和峰度
- 正态性及其评估
- 图形汇总(直方图、箱线图、散点图)
- 探索性数据分析
Mechanisms
描述通过将大量观测数据简化为少量信息丰富的量和图表来进行。位置度量(均值、中位数或众数)概括了数据的集中位置;离散度度量(标准差、四分位距、全距)概括了数据围绕该位置的散布程度;位置和离散度的配对选择与分布形状相匹配,其中中位数和四分位距更适用于偏态数据,而均值和标准差更适用于大致对称的数据。直方图和箱线图等图形显示可以揭示单个数字可能隐藏的形状、偏度及异常值,这些工具共同构成了正式推断之前的探索阶段。
Clinical relevance
几乎所有的临床研究、审计和监测报告都以参与者和测量数据的描述性汇总开始,因此理解这些汇总对于阅读健康科学文献至关重要。本领域描述了数据如何被表征,旨在为证据评估提供背景,而非作为个体诊断或治疗决策的基础。
Epidemiology
描述性汇总是流行病学和临床研究中的第一个分析步骤,用于在估计关联之前表征研究人群、基线表格以及暴露和结果的分布。汇总度量和显示方式的选择直接影响研究数据传达的透明度。
History
数据的数值汇总在18世纪和19世纪的天文学和生命统计学中有着深厚的根源,但现代描述性工具包在20世纪得以整合。约翰·图基(John Tukey)的《探索性数据分析》(Exploratory Data Analysis, 1977)将描述重新定义为一项独立的调查活动,并推广了箱线图等显示方式,而健康科学领域的统计教育者随后将医学期刊中报告的标准汇总进行了规范。
Debates
- 何时应放弃均值和标准差,转而使用中位数和四分位距?
- 由于均值和标准差受偏度和异常值的影响,长期以来一直建议使用中位数和四分位距来汇总非正态数据;转换的实际阈值取决于分布形状和样本量。
Key figures
- John W. Tukey
- William S. Cleveland
- Douglas G. Altman
- J. Martin Bland
Related topics
Seminal works
- tukey-1977
- gupta-2019
Frequently asked questions
- 描述性统计和推断性统计有什么区别?
- 描述性统计汇总和显示实际收集的数据,而推断性统计则利用这些数据对更广泛的总体进行概括。描述性统计是第一步,并且在所收集样本之外不作任何概率性声明。
- 为什么在进行检验之前要先描述数据?
- 汇总和图表揭示了分布的形状、离散程度以及任何异常值或错误,这些决定了后续分析是否合适以及其结果应如何解释。