趋近智
评估机器学习 (machine learning)模型对于确定其真实有效性非常。一个在训练数据上表现良好的模型,在面对从未见过的全新信息时,可能会完全失效。模型评估与验证的目的在于全面测试模型的性能,并确保它在进入生产环境之前能够适应新数据。这一阶段相当于一个质量关卡,可以防止性能不佳或不可靠的模型被部署。
机器学习 (machine learning)中最常见的问题之一是过拟合。想象一个学生通过死记硬背学习指南上的题目和答案来准备考试。如果考试正好使用了完全相同的题目,他可能会拿到满分;但如果考试包含了涉及相同知识点的新题目,他很可能会不及格。
机器学习模型也会出现同样的情况。如果它过于贴合训练数据,包括其中的噪声和随机波动,它本质上是记住了答案,而不是学习潜在的规律。这种过拟合的模型在训练数据上会有极佳的表现,但在任何新数据上都表现糟糕。验证是我们防范这一问题的主要手段。
为了妥善评估模型并防止过拟合 (overfitting),我们不能将同一份数据同时用于训练和测试。标准做法是将初始数据集划分为三个独立的子集:
该图表显示了如何将单个数据集划分为训练集、验证集和测试集,以支持模型开发生命周期的不同阶段。
衡量表现“好坏”的标准完全取决于你所解决的问题类型。对回归任务(预测数值)有用的指标对于分类任务(预测类别)通常没有意义。
在分类中,你是在预测一个标签,例如“垃圾邮件”或“非垃圾邮件”。
准确率 (Accuracy): 最直观的指标。它是正确预测数与总预测数的比值。
虽然准确率很简单,但它有时会产生误导,尤其是在数据不平衡的情况下。如果你有一个包含 99%“非垃圾邮件”和 1%“垃圾邮件”的数据集,一个总是预测为“非垃圾邮件”的模型将拥有 99% 的准确率,但对于其预期目的而言完全无用。
精确率 (Precision) 与 召回率 (Recall): 这两个指标提供了更详尽的信息,尤其适用于类别不平衡的情况。
F1 分数 (F1-Score): 这是精确率和召回率的调和平均值,提供了一个平衡这两个指标的单一得分。当你需要在减少误报和减少漏报之间寻找折中方案时,它非常有用。
混淆矩阵 (Confusion Matrix): 混淆矩阵是一个汇总分类模型表现的表格。它显示了真阳性 (TP)、真阴性 (TN)、假阳性 (FP) 和假阴性 (FN) 的数量,让你能够全面了解模型的成功之处和失败之处。
一个显示垃圾邮件检测任务模型表现的混淆矩阵。正确预测(真阴性和真阳性)与错误预测(假阳性和假阴性)被清晰区分。
在回归中,你是在预测一个连续值,比如房价或明天的气温。
虽然训练-验证-测试划分是一种可靠的技术,但它容易受到哪些数据点进入哪个划分的影响,尤其是在数据集较小时。一种更通用的技术是 K 折交叉验证 (K-Fold Cross-Validation)。
在 K 折交叉验证中,训练数据被分成 K 个大小相等的份(即“折”)。模型会被训练 K 次。在每次迭代中,其中一折用作验证集,其余 K-1 折用于训练。最终的性能指标是所有 K 次迭代指标的平均值。这个过程可以对模型在未知数据上的表现给出更可靠的估算。
5 折交叉验证的过程。数据被分成五折,模型被训练和验证五次,每一折都轮流充当一次验证集。
通过使用合适的指标全面评估模型,并在未见过的数据上进行验证,你可以获得推进项目所需的信心。这种结构化方法确保了只有最有前景和最可靠的模型才会被考虑用于生命周期的最后一个阶段:部署。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•