监督学习与无监督学习有何区别？

监督学习使用具有已知目标标签或值的示例，并学习预测新输入的这些目标。无监督学习处理未标记数据，并发现诸如聚类或低维表示之类的结构。

为什么泛化是核心关注点？

模型总是可以完美拟合训练数据，但这可能捕获噪声而非信号。真正的目标是对未见数据的准确性，因此估计和控制训练误差与测试误差之间差距的方法，如正则化和交叉验证，至关重要。

监督学习通过已知目标值的示例构建预测模型，学习从输入到输出的映射，并将其推广到未见过的案例。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

监督学习是从输入-输出对的训练集中推断函数，以便该函数能够预测新输入的输出；学习算法选择函数以最小化训练数据上的误差度量，同时控制复杂性以避免过拟合。

该领域涵盖从标记数据中学习，包括分类和回归，将学习表述为带有损失函数的经验风险最小化，偏差-方差权衡，对新输入的泛化，以及主要的模型家族：线性模型和广义线性模型、最近邻和核方法、支持向量机、决策树，以及袋装法和提升法等集成方法。

经验风险最小化: 学习被视为选择一个函数，该函数最小化训练样本上的平均损失，作为最小化底层分布上预期损失的替代，并添加正则化以控制两者之间的差距。
偏差-方差分解: 预期预测误差分解为平方偏差、方差和不可约噪声，解释了为什么过于简单的模型会欠拟合，而过于灵活的模型会过拟合，并促使人们控制复杂性。
基于间隔和集成学习: 最大化分离间隔（支持向量机）和结合许多弱学习器或随机学习器（袋装法、提升法、随机森林）产生的分类器通常比单个非正则化模型具有更好的泛化能力。

监督学习是大多数已部署预测系统的基础，从垃圾邮件过滤器、信用评分、医疗诊断支持到图像和语音识别；其核心挑战是泛化，确保适合历史示例的模型也能在未来数据上表现良好，这就是为什么估计和控制泛化误差的方法是该领域的核心。

监督学习源于统计回归和判别分析，以及早期模式识别工作，如感知器和最近邻规则。20世纪90年代带来了支持向量机和严谨的统计学习理论；同期及随后的十年，决策树集成方法，如袋装法、提升法和随机森林，成为表格预测的主导工具。

监督学习与无监督学习有何区别？: 监督学习使用具有已知目标标签或值的示例，并学习预测新输入的这些目标。无监督学习处理未标记数据，并发现诸如聚类或低维表示之类的结构。
为什么泛化是核心关注点？: 模型总是可以完美拟合训练数据，但这可能捕获噪声而非信号。真正的目标是对未见数据的准确性，因此估计和控制训练误差与测试误差之间差距的方法，如正则化和交叉验证，至关重要。