ScholarGate
助手

分类算法

分类算法通过从标记样本中学习决策边界或类别概率估计,将输入分配到有限类别集中的一个。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

分类算法从输入-标签对中学习一个规则,将每个新输入映射到一个离散类别;生成方法对每个类别内的输入分布进行建模并应用贝叶斯规则,而判别方法则直接对类别边界或后验概率进行建模。

Scope

本主题涵盖了预测分类标签的监督任务:概率生成分类器,如朴素贝叶斯和高斯判别分析;判别分类器,如逻辑回归;基于实例的方法,如k-最近邻;以及决策边界、后验类别概率和最小化误差的贝叶斯最优分类器等概念。

Core questions

  • 如何从标记数据中估计类别之间的决策边界?
  • 分类器何时应该对类别条件分布进行建模,而不是直接对后验进行建模?
  • 贝叶斯最优误差是多少?学习到的分类器能达到多接近?
  • 多类别问题如何简化为二元分类或与二元分类一起解决?

Key theories

贝叶斯最优分类
将每个输入分配给具有最高后验概率的类别,可以最小化预期错误分类误差,从而定义了实际分类器所近似的理论最优值。
生成模型与判别模型
朴素贝叶斯和判别分析对每类数据是如何生成的进行建模,而逻辑回归则直接对类别后验进行建模,这种区别会影响数据效率和对模型错误指定的鲁棒性。
最近邻分类
通过附近训练点的标签进行分类是一种简单的非参数规则,其误差渐近地至多是贝叶斯误差的两倍,这说明了仅凭局部信息也可以非常强大。

Clinical relevance

分类是应用机器学习的主力,广泛应用于电子邮件垃圾邮件检测、情感分析、图像标注、欺诈检测和计算机辅助诊断;理解贝叶斯最优和生成-判别之间的区别有助于选择方法和解释类别概率输出。

History

早期的分类器包括费舍尔的线性判别和由科弗和哈特在1967年分析的最近邻规则。逻辑回归从统计学领域进入机器学习,朴素贝叶斯和判别分析成为标准的概率基线,所有这些后来都在估计后验类别概率的框架内得到了统一。

Key figures

  • Thomas Cover
  • Peter Hart
  • Christopher Bishop

Related topics

Seminal works

  • cover1967
  • bishop2006
  • hastie2009

Frequently asked questions

逻辑回归是回归方法还是分类方法?
尽管名为回归,但逻辑回归用于分类。它对输入属于某个类别的概率进行建模,然后决策规则将该概率转换为预测标签。
为什么k-最近邻不需要训练阶段?
k-最近邻存储训练数据,并在预测时通过查找其最近的存储示例来对新点进行分类。没有明确拟合的模型,这使得训练变得微不足道,但预测可能较慢且占用大量内存。

Methods for this concept

Related concepts