VC维和容量
Vapnik-Chervonenkis维(VC维)通过模型类别能够以所有可能方式标记的最大点集来衡量其容量,从而量化学习器的复杂性。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
一个分类器类别的Vapnik-Chervonenkis维是该类别能够以所有可能方式标记的最大点数;它是一种容量度量,限制了该类别可能过拟合的程度,因此也限制了可靠学习所需的数据量。
Scope
本主题涵盖了假设类别丰富度的衡量标准:点集破碎(shattering)的概念,作为最大破碎集大小的Vapnik-Chervonenkis维,增长函数,以及这些容量度量如何进入泛化界限。它解释了为什么容量而非仅仅参数数量决定了泛化能力。
Core questions
- 模型类别破碎一个点集意味着什么?
- Vapnik-Chervonenkis维是如何定义和计算的?
- 为什么是容量而非参数数量决定泛化能力?
- 容量如何进入训练误差与真实误差之间差距的界限?
Key theories
- 破碎与容量
- 如果一个类别能够实现点集的所有可能标记,则称其破碎了该点集;最大的此类点集定义了Vapnik-Chervonenkis维,这是一种与分布无关的衡量类别灵活性的度量。
- 容量控制一致收敛
- 有限容量确保了经验误差在类别上一致收敛到真实误差,因此具有有限Vapnik-Chervonenkis维的学习器不会随着数据增长而任意过拟合。
- 容量与参数数量
- 容量而非原始参数数量决定泛化能力,因此具有相同参数数量的两个模型在所需数据量上可能存在很大差异。
Clinical relevance
Vapnik-Chervonenkis维提供了经典学习理论的核心容量度量,并证明了控制模型复杂度的实践是合理的;它是支持向量机基于边缘分析的基础,并构成了理解为什么某些高容量模型仍能泛化的持续努力的框架。
History
Vapnik和Chervonenkis在1960年代末期的工作以及1971年关于一致收敛的论文中引入了以他们名字命名的维度,建立了一个与分布无关的容量理论。这一概念成为支持向量机和更广泛的泛化分析的基础。
Key figures
- Vladimir Vapnik
- Alexey Chervonenkis
Related topics
Seminal works
- vapnik1971
- vapnik1995
- hastie2009
Frequently asked questions
- 破碎(shattering)意味着什么?
- 如果一个模型类别能够对一组点进行所有可能的标记分配,并且该类别中的某个模型能够精确地产生该标记,则称该点集被该模型类别破碎。最大可破碎集的大小就是Vapnik-Chervonenkis维。
- 参数更多的模型容量总是更高吗?
- 不一定。容量是通过Vapnik-Chervonenkis维或相关量来衡量的,这可能与参数数量不同。泛化复杂度的正确衡量标准是容量,而不仅仅是模型有多少参数。