监督学习
监督学习通过已知目标值的示例构建预测模型,学习从输入到输出的映射,并将其推广到未见过的案例。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
监督学习是从输入-输出对的训练集中推断函数,以便该函数能够预测新输入的输出;学习算法选择函数以最小化训练数据上的误差度量,同时控制复杂性以避免过拟合。
Scope
该领域涵盖从标记数据中学习,包括分类和回归,将学习表述为带有损失函数的经验风险最小化,偏差-方差权衡,对新输入的泛化,以及主要的模型家族:线性模型和广义线性模型、最近邻和核方法、支持向量机、决策树,以及袋装法和提升法等集成方法。
Sub-topics
Core questions
- 如何将模型拟合到标记示例,使其在新数据上表现良好?
- 哪些损失函数和风险度量可以形式化准确预测的目标?
- 模型复杂性如何在偏差和方差之间进行权衡?
- 哪些模型家族适用于分类问题,哪些适用于回归问题?
Key theories
- 经验风险最小化
- 学习被视为选择一个函数,该函数最小化训练样本上的平均损失,作为最小化底层分布上预期损失的替代,并添加正则化以控制两者之间的差距。
- 偏差-方差分解
- 预期预测误差分解为平方偏差、方差和不可约噪声,解释了为什么过于简单的模型会欠拟合,而过于灵活的模型会过拟合,并促使人们控制复杂性。
- 基于间隔和集成学习
- 最大化分离间隔(支持向量机)和结合许多弱学习器或随机学习器(袋装法、提升法、随机森林)产生的分类器通常比单个非正则化模型具有更好的泛化能力。
Clinical relevance
监督学习是大多数已部署预测系统的基础,从垃圾邮件过滤器、信用评分、医疗诊断支持到图像和语音识别;其核心挑战是泛化,确保适合历史示例的模型也能在未来数据上表现良好,这就是为什么估计和控制泛化误差的方法是该领域的核心。
History
监督学习源于统计回归和判别分析,以及早期模式识别工作,如感知器和最近邻规则。20世纪90年代带来了支持向量机和严谨的统计学习理论;同期及随后的十年,决策树集成方法,如袋装法、提升法和随机森林,成为表格预测的主导工具。
Debates
- 可解释性与预测准确性
- 大型集成模型和深度网络等高精度模型通常不透明,引发了关于何时应优先选择可解释模型(尤其是在高风险决策中)的争论。
Key figures
- Vladimir Vapnik
- Leo Breiman
- Trevor Hastie
- Robert Tibshirani
Related topics
Seminal works
- bishop2006
- hastie2009
- cortes1995
- breiman2001
Frequently asked questions
- 监督学习与无监督学习有何区别?
- 监督学习使用具有已知目标标签或值的示例,并学习预测新输入的这些目标。无监督学习处理未标记数据,并发现诸如聚类或低维表示之类的结构。
- 为什么泛化是核心关注点?
- 模型总是可以完美拟合训练数据,但这可能捕获噪声而非信号。真正的目标是对未见数据的准确性,因此估计和控制训练误差与测试误差之间差距的方法,如正则化和交叉验证,至关重要。