分类算法
分类算法通过从标记样本中学习决策边界或类别概率估计,将输入分配到有限类别集中的一个。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
分类算法从输入-标签对中学习一个规则,将每个新输入映射到一个离散类别;生成方法对每个类别内的输入分布进行建模并应用贝叶斯规则,而判别方法则直接对类别边界或后验概率进行建模。
Scope
本主题涵盖了预测分类标签的监督任务:概率生成分类器,如朴素贝叶斯和高斯判别分析;判别分类器,如逻辑回归;基于实例的方法,如k-最近邻;以及决策边界、后验类别概率和最小化误差的贝叶斯最优分类器等概念。
Core questions
- 如何从标记数据中估计类别之间的决策边界?
- 分类器何时应该对类别条件分布进行建模,而不是直接对后验进行建模?
- 贝叶斯最优误差是多少?学习到的分类器能达到多接近?
- 多类别问题如何简化为二元分类或与二元分类一起解决?
Key theories
- 贝叶斯最优分类
- 将每个输入分配给具有最高后验概率的类别,可以最小化预期错误分类误差,从而定义了实际分类器所近似的理论最优值。
- 生成模型与判别模型
- 朴素贝叶斯和判别分析对每类数据是如何生成的进行建模,而逻辑回归则直接对类别后验进行建模,这种区别会影响数据效率和对模型错误指定的鲁棒性。
- 最近邻分类
- 通过附近训练点的标签进行分类是一种简单的非参数规则,其误差渐近地至多是贝叶斯误差的两倍,这说明了仅凭局部信息也可以非常强大。
Clinical relevance
分类是应用机器学习的主力,广泛应用于电子邮件垃圾邮件检测、情感分析、图像标注、欺诈检测和计算机辅助诊断;理解贝叶斯最优和生成-判别之间的区别有助于选择方法和解释类别概率输出。
History
早期的分类器包括费舍尔的线性判别和由科弗和哈特在1967年分析的最近邻规则。逻辑回归从统计学领域进入机器学习,朴素贝叶斯和判别分析成为标准的概率基线,所有这些后来都在估计后验类别概率的框架内得到了统一。
Key figures
- Thomas Cover
- Peter Hart
- Christopher Bishop
Related topics
Seminal works
- cover1967
- bishop2006
- hastie2009
Frequently asked questions
- 逻辑回归是回归方法还是分类方法?
- 尽管名为回归,但逻辑回归用于分类。它对输入属于某个类别的概率进行建模,然后决策规则将该概率转换为预测标签。
- 为什么k-最近邻不需要训练阶段?
- k-最近邻存储训练数据,并在预测时通过查找其最近的存储示例来对新点进行分类。没有明确拟合的模型,这使得训练变得微不足道,但预测可能较慢且占用大量内存。