分类与判别分析
分类与判别分析包括多变量方法,这些方法利用测量的特征和标记样本,将观测值分配到预定义的组中。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
判别分析和分类是构建规则,将多变量观测值分配到几个已知组中的一个,以最小化误分类的预期成本或错误。
Scope
该领域涵盖多变量观测的监督分类。它包括费舍尔线性判别及其高斯模型解释、用于不等组协方差的二次判别分析、作为类别成员概率直接模型的逻辑判别,以及支持向量机等基于边界的方法。重点在于决策边界的构建、几何和评估。
Sub-topics
Core questions
- 如何根据观测值的测量特征将其分配到几个已知组中的一个?
- 哪个决策边界能最小化预期的误分类成本?
- 线性边界何时足够,何时需要二次或非线性边界?
- 如何在没有乐观偏差的情况下估计分类器性能?
Key theories
- 贝叶斯最优分类
- 将每个观测值分配给具有最高后验概率的组,可以最小化预期的误分类错误;参数判别方法在分布假设下估计这些后验概率。
- 费舍尔线性判别
- 费舍尔寻求特征的线性组合,以最大程度地分离组均值相对于组内离散度,从而产生一个判别方向,在等高斯协方差下,该方向与贝叶斯规则一致。
Clinical relevance
分类方法用于需要根据多变量测量将病例分类到已知类别的任何地方,包括医学诊断、信用评分、物种识别和遥感土地覆盖测绘。
History
该领域始于费舍尔1936年应用于分类学测量的线性判别。随后出现了概率和高斯公式,逻辑判别提供了类别概率的直接模型,二十世纪后期基于边界和核方法的发展将分类扩展到高维和非线性环境。
Debates
- 生成式分类与判别式分类
- 判别分析等生成式方法对每个类别内的特征分布进行建模,而逻辑回归和支持向量机等判别式方法直接对边界或类别概率进行建模;它们的相对优劣取决于样本量以及分布假设的适用程度。
Key figures
- Ronald A. Fisher
- Vladimir Vapnik
Related topics
Seminal works
- fisher1936
- hastie2009
- johnson2007
Frequently asked questions
- 分类与聚类有何不同?
- 分类是监督式的:组是预先知道的,并且有标记的训练样本可用。聚类是无监督的,它在没有预定义标签的情况下发现分组。
- 为什么要估计保留数据上的误差?
- 在用于拟合分类器的数据上测量的误差存在乐观偏差,因此需要通过交叉验证或测试集获得的样本外估计来评估真实的预测性能。