支持向量分类
支持向量分类通过使到最近训练点的间隔最大化的超平面来分离类别,并通过核函数扩展到非线性边界。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
支持向量分类是一种基于间隔的方法,它选择使到每个类别最近训练样本距离最大化的决策边界,可选择在核函数诱导的特征空间中进行,以平衡间隔宽度和分类错误。
Scope
本主题涵盖最大间隔超平面、支持向量的作用、用于不可分数据的带松弛变量的软间隔公式、对偶优化问题以及通过核技巧隐式地将特征映射到更高维空间以获得非线性决策边界。
Core questions
- 在所有分离边界中,哪一个泛化能力最好?
- 如何处理不可分的类别?
- 核技巧如何在没有显式特征映射的情况下产生非线性边界?
- 哪些训练点决定了边界?
Key theories
- 最大间隔分离
- 选择使到最近点间隔最大化的分离超平面,会产生由稀疏支持向量集确定的边界,并受到统计学习理论泛化界限的启发。
- 核技巧
- 由于优化仅通过内积依赖于数据,因此用核函数替换内积对应于在高维特征空间中的最大间隔边界,从而以线性成本获得非线性分类器。
Clinical relevance
支持向量机广泛应用于文本分类、生物信息学和图像识别等高维分类任务,其中间隔原理和核函数能有效处理大量特征和复杂边界。
History
支持向量分类源于统计学习理论,并于1995年由Cortes和Vapnik在支持向量网络公式中得以明确,此后核方法成为机器学习的核心范式。
Debates
- 核函数和正则化的选择
- 性能在很大程度上取决于核函数和控制间隔软度的正则化参数;这些参数必须进行调整,并且没有普遍的最佳选择。
Key figures
- Vladimir Vapnik
- Corinna Cortes
Related topics
Seminal works
- cortes1995
- hastie2009
- vapnik1998
Frequently asked questions
- 什么是支持向量?
- 它们是位于间隔上或间隔内的训练点,决定了决策边界的位置;解决方案仅取决于这些点。
- 为什么要使用软间隔?
- 真实数据很少是完全可分的,因此软间隔公式允许一些点违反间隔,以换取更宽、更鲁棒的边界,这由正则化参数控制。