分类数据分析
分类数据分析是生物统计学的一个分支,关注那些属于离散类别而非连续数值的数据——例如疾病的存在与否、肿瘤的良性或恶性、患者被分配到几个治疗组中的一个。其核心对象是计数列联表,其方法旨在检验和量化分类变量之间的关联,同时控制其他变量。
Definition
分类数据分析是一套统计方法,用于描述、检验和建模变量之间的关联,这些变量的值是无序或有序离散类别中的计数,通常组织为频率列联表。
Scope
本领域旨在向读者介绍以下主题页面中反复出现的核心思想:分类观测值如何排列成列联表,表中关联如何检验(卡方检验和精确检验),关联如何通过效应量(风险比和优势比)进行总结,以及混杂分类变量如何通过分层(Mantel-Haenszel 方法)处理。它将这些视为阅读和生成健康研究的方法工具,而非临床指导。
Sub-topics
Core questions
- 两个分类变量之间是否存在关联,或者它们是否独立?
- 关联的大小是多少,以风险或优势的比率或差异表示?
- 在对第三个分类变量进行分层后,表观关联是否仍然存在,或者是否被其混淆或修饰?
- 当单元格计数较小时,哪种精确程序可以替代大样本近似?
Key concepts
- 计数列联表
- 分类变量的独立性
- 关联的卡方检验
- 稀疏表的精确检验
- 效应量:风险比和优势比
- 分层和Mantel-Haenszel 估计量
- 跨层的混杂和效应修饰
- 表的对数线性模型和逻辑模型
Mechanisms
分类观测值被交叉分类到一个表中,其单元格包含频率。关联检验将观察到的单元格计数与如果行变量和列变量独立时预期的计数进行比较:皮尔逊卡方统计量,通过费舍尔对其自由度的澄清在渐近意义上得到证明,它汇总了标准化差异的平方,而精确检验则在计数过小无法进行近似时枚举表的条件分布。关联强度随后通过从表中得出的效应量——风险比或优势比——进行总结。当第三个变量可能混淆关联时,数据会根据该变量定义的层进行分割,并形成跨层的汇总估计;Mantel-Haenszel 程序提供了这种分层检验和汇总估计。这些部分可以推广到对数线性模型和逻辑回归模型,这些模型可以同时处理多个分类预测因子。
Clinical relevance
健康科学中大多数诊断、预后和风险因素证据都以分类变量之间关联的形式报告——暴露与未暴露、事件与无事件——因此本领域的方法是这些证据生成和评估的基础。它们描述了关联如何测量和检验;它们是解释研究的工具,而不是个体诊断或治疗决策的基础。
Epidemiology
列联表方法是流行病学的日常机制:队列研究、病例对照研究和横断面研究,最简单地都可以归结为暴露与结果的二乘二表,而分层(Mantel-Haenszel)分析是回归之前处理混杂的经典非模型方法。同样的方法也出现在报告二元终点的临床试验和诊断测试评估中。
History
该领域始于20世纪初卡尔·皮尔逊的卡方统计量和费舍尔1922年对其列联表自由度的修正,随后是费舍尔针对小样本的精确检验。世纪中叶的流行病学提供了效应量框架——康菲尔德的优势比论证和1959年的Mantel-Haenszel 分层估计量——20世纪后期在广义线性模型框架内统一了这些方法,并在阿格雷斯蒂的教科书处理中得到了综合。
Key figures
- Karl Pearson
- Ronald A. Fisher
- Jerome Cornfield
- Nathan Mantel
- William Haenszel
- Alan Agresti
- Joseph Fleiss
Related topics
Seminal works
- fisher-1922
- mantel-haenszel-1959
- agresti-2013
Frequently asked questions
- 什么使数据成为“分类”数据?
- 当每个观测值属于一组离散类别中的一个——例如患病/健康或治疗组A/B/C——而不是取一个测量的数值时,数据就是分类数据;分析处理的是每个类别中的计数。
- 该领域与连续结果的回归有何不同?
- 这里的结果是类别或计数,而不是连续测量,因此方法侧重于列联表、风险和优势的比率以及逻辑回归和对数线性回归等模型,而不是均值和普通线性回归。