线性判别分析
线性判别分析利用特征的线性组合来分离预定义组,当各组服从具有共同协方差矩阵的高斯分布时,该方法效果最佳。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
线性判别分析是一种分类方法,它在共同协方差矩阵下,将观测值分配到其马氏距离(Mahalanobis distance)最近的组均值所属的组,从而在组间产生线性边界。
Scope
本主题涵盖了费舍尔准则(最大化组间方差与组内方差之比)、产生线性决策边界的等效高斯模型(具有相同协方差)、合并协方差矩阵的作用、通过判别坐标进行多组判别,以及与马氏距离的联系。
Core questions
- 哪种特征的线性组合能最好地分离各组?
- 在什么假设下,线性规则是最佳的?
- 合并组内协方差如何进入判别函数?
- 如何同时处理多个组?
Key theories
- 分离最大化
- 费舍尔判别选择使组间方差与组内方差之比最大化的投影方向,从而给出特征最具分离性的线性组合。
- 等协方差高斯模型
- 当各组服从具有共享协方差矩阵的多元正态分布时,类别密度的对数比在特征上是线性的,因此贝叶斯分类器简化为基于到组均值的马氏距离的线性判别。
Clinical relevance
线性判别分析仍然是一种简单且可解释的基线分类器和降维工具,它将数据投影到最能区分已知组的方向上,常用于诊断、人脸识别和化学计量学。
History
费舍尔于1936年利用鸢尾花测量数据引入了线性判别,将其定义为一个分离问题。随后,其与等协方差高斯总体的贝叶斯法则的等价性得以确立,从而将几何视图和概率视图联系起来。
Debates
- 等协方差假设的稳健性
- 线性判别分析假设各组具有共同的协方差;当此假设不成立时,二次判别分析或正则化变体可能表现更好,尽管线性规则在小样本中通常更稳定。
Key figures
- Ronald A. Fisher
- P. C. Mahalanobis
Related topics
Seminal works
- fisher1936
- anderson2003
- hastie2009
Frequently asked questions
- 何时优先选择线性判别分析而非逻辑回归?
- 当高斯等协方差假设合理成立时,尤其是在小样本或类别分离良好的情况下,线性判别分析可能更有效;当这些假设存疑时,逻辑回归更具稳健性。
- 线性判别分析能否降维?
- 能。对于多个组,它会生成判别坐标,这些坐标构成一个最大化组分离的低维子空间,可用于可视化。