分类与聚类有何不同？

分类是监督式的：组是预先知道的，并且有标记的训练样本可用。聚类是无监督的，它在没有预定义标签的情况下发现分组。

为什么要估计保留数据上的误差？

在用于拟合分类器的数据上测量的误差存在乐观偏差，因此需要通过交叉验证或测试集获得的样本外估计来评估真实的预测性能。

分类与判别分析包括多变量方法，这些方法利用测量的特征和标记样本，将观测值分配到预定义的组中。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

Learn & explore

视频即将推出

判别分析和分类是构建规则，将多变量观测值分配到几个已知组中的一个，以最小化误分类的预期成本或错误。

该领域涵盖多变量观测的监督分类。它包括费舍尔线性判别及其高斯模型解释、用于不等组协方差的二次判别分析、作为类别成员概率直接模型的逻辑判别，以及支持向量机等基于边界的方法。重点在于决策边界的构建、几何和评估。

分类方法用于需要根据多变量测量将病例分类到已知类别的任何地方，包括医学诊断、信用评分、物种识别和遥感土地覆盖测绘。

该领域始于费舍尔1936年应用于分类学测量的线性判别。随后出现了概率和高斯公式，逻辑判别提供了类别概率的直接模型，二十世纪后期基于边界和核方法的发展将分类扩展到高维和非线性环境。

生成式分类与判别式分类: 判别分析等生成式方法对每个类别内的特征分布进行建模，而逻辑回归和支持向量机等判别式方法直接对边界或类别概率进行建模；它们的相对优劣取决于样本量以及分布假设的适用程度。