模型评估与验证

评估机器学习 (machine learning)模型对于确定其真实有效性非常。一个在训练数据上表现良好的模型，在面对从未见过的全新信息时，可能会完全失效。模型评估与验证的目的在于全面测试模型的性能，并确保它在进入生产环境之前能够适应新数据。这一阶段相当于一个质量关卡，可以防止性能不佳或不可靠的模型被部署。

过拟合 (overfitting)的挑战

机器学习 (machine learning)中最常见的问题之一是过拟合。想象一个学生通过死记硬背学习指南上的题目和答案来准备考试。如果考试正好使用了完全相同的题目，他可能会拿到满分；但如果考试包含了涉及相同知识点的新题目，他很可能会不及格。

机器学习模型也会出现同样的情况。如果它过于贴合训练数据，包括其中的噪声和随机波动，它本质上是记住了答案，而不是学习潜在的规律。这种过拟合的模型在训练数据上会有极佳的表现，但在任何新数据上都表现糟糕。验证是我们防范这一问题的主要手段。

训练集、验证集和测试集的划分

为了妥善评估模型并防止过拟合 (overfitting)，我们不能将同一份数据同时用于训练和测试。标准做法是将初始数据集划分为三个独立的子集：

训练集： 这是数据中占比最大的部分，通常为 60-80%。模型从这些数据中学习潜在的模式和关系。
验证集： 这个子集通常占数据的 10-20%，用于调整模型的超参数 (parameter) (hyperparameter)，并从一系列实验中选择表现最好的模型。可以把它看作是一场模拟考试，用来观察模型的学习效果，并据此进行调整。
测试集： 同样占数据的 10-20%，这个子集被完全隔离，仅在流程最后使用一次。它提供了所选模型在未知数据上性能的最终、公正的衡量标准。这就是期末考试。

该图表显示了如何将单个数据集划分为训练集、验证集和测试集，以支持模型开发生命周期的不同阶段。

选择合适的评估指标

衡量表现“好坏”的标准完全取决于你所解决的问题类型。对回归任务（预测数值）有用的指标对于分类任务（预测类别）通常没有意义。

分类指标

在分类中，你是在预测一个标签，例如“垃圾邮件”或“非垃圾邮件”。

准确率 (Accuracy)： 最直观的指标。它是正确预测数与总预测数的比值。
$\text{准确率} = \frac{\text{正确预测的数量}}{\text{总预测数量}}$
虽然准确率很简单，但它有时会产生误导，尤其是在数据不平衡的情况下。如果你有一个包含 99%“非垃圾邮件”和 1%“垃圾邮件”的数据集，一个总是预测为“非垃圾邮件”的模型将拥有 99% 的准确率，但对于其预期目的而言完全无用。
精确率 (Precision) 与召回率 (Recall)： 这两个指标提供了更详尽的信息，尤其适用于类别不平衡的情况。
- 精确率回答了这样一个问题：“在我们预测为正例的所有项中，有多少实际上是正例？”它衡量的是误报（假阳性）的代价。当误报代价很高时（例如，将合法邮件标记 (token)为垃圾邮件），高精确率非常重要。
- 召回率（或灵敏度）回答了这样一个问题：“在所有实际为正例的项中，我们正确识别了多少？”它衡量的是漏报（假阴性）的代价。当漏报代价很高时（例如，未能检测到欺诈交易），高召回率非常重要。
F1 分数 (F1-Score)： 这是精确率和召回率的调和平均值，提供了一个平衡这两个指标的单一得分。当你需要在减少误报和减少漏报之间寻找折中方案时，它非常有用。
$\text{F1 分数} = 2 \times \frac{\text{精确率} \times \text{召回率}}{\text{精确率} + \text{召回率}}$
混淆矩阵 (Confusion Matrix)： 混淆矩阵是一个汇总分类模型表现的表格。它显示了真阳性 (TP)、真阴性 (TN)、假阳性 (FP) 和假阴性 (FN) 的数量，让你能够全面了解模型的成功之处和失败之处。

一个显示垃圾邮件检测任务模型表现的混淆矩阵。正确预测（真阴性和真阳性）与错误预测（假阳性和假阴性）被清晰区分。

回归指标

在回归中，你是在预测一个连续值，比如房价或明天的气温。

平均绝对误差 (MAE)： 该指标计算预测值与实际值之间差值的绝对平均值。由于它与输出变量的单位相同，因此非常容易理解。例如，房价预测模型中 5000 的 MAE 意味着预测值平均偏差为 $5000。 $\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} | \text{实际值}_i - \text{预测值}_i |$
均方根误差 (RMSE)： 与 MAE 类似，但它在取平均值之前先对差值进行平方，然后对结果取平方根。通过对误差求平方，RMSE 对大误差的惩罚比小误差更重。当特别不希望出现大误差时，这个指标非常有用。 $\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (\text{实际值}_i - \text{预测值}_i)^2}$

单次划分之外的验证

虽然训练-验证-测试划分是一种可靠的技术，但它容易受到哪些数据点进入哪个划分的影响，尤其是在数据集较小时。一种更通用的技术是 K 折交叉验证 (K-Fold Cross-Validation)。

在 K 折交叉验证中，训练数据被分成 K 个大小相等的份（即“折”）。模型会被训练 K 次。在每次迭代中，其中一折用作验证集，其余 K-1 折用于训练。最终的性能指标是所有 K 次迭代指标的平均值。这个过程可以对模型在未知数据上的表现给出更可靠的估算。

5 折交叉验证的过程。数据被分成五折，模型被训练和验证五次，每一折都轮流充当一次验证集。

通过使用合适的指标全面评估模型，并在未见过的数据上进行验证，你可以获得推进项目所需的信心。这种结构化方法确保了只有最有前景和最可靠的模型才会被考虑用于生命周期的最后一个阶段：部署。

这部分内容有帮助吗？

参考文献

Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, Aurélien Géron, 2022 (O'Reilly Media) - 提供了使用流行机器学习库进行模型评估、验证技术和指标的实践实现细节。
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2009 (Springer) DOI: 10.1007/978-0-387-84858-7 - 一本基础书籍，涵盖了机器学习背后的统计原则，包括过拟合、验证和评估指标。
CS229 Lecture Notes: Supervised Learning, Generative Learning Algorithms, Regularization and Model Selection, Andrew Ng, 2018 Stanford University CS229 Course Materials (Stanford University) - 提供了监督学习、正则化和交叉验证等模型选择技术的基础解释。