趋近智
我们已经讨论了模型如何从数据中学习,以及过拟合 (overfitting)和欠拟合 (underfitting)等可能的问题。但我们怎么才能真正知道一个模型表现得好不好呢?我们如何量化 (quantization)它的成功或失败?这就是性能指标的作用。它们提供了一种标准化的方法,来衡量模型在未见过的数据(通常是验证集或测试集)上预测的有效性。
可以把指标想象成机器学习 (machine learning)模型的评分系统。没有它们,你就无法判断模型是真的在学习底层规律,还是仅仅记住了训练数据。不同类型的问题(例如预测类别与预测数值)需要不同种类的指标。接下来,我们来看看一些基本的指标。
对于分类任务,其目的是将数据点分到预设的类别中(例如“垃圾邮件”或“非垃圾邮件”,“猫”或“狗”),其中一个最直观的指标是准确率。
准确率简单地衡量了模型正确预测的比例。它的计算方式如下:
例子: 假设你构建了一个模型,用于将电子邮件分类为“垃圾邮件”或“非垃圾邮件”。你用100封它从未见过的邮件进行测试。
正确预测的总数是 。 预测总数是 。
所以,准确率是: 这意味着模型在这个测试集上的准确率为92%。这听起来相当不错,对吧?准确率容易理解,并能快速概括模型的整体表现。
然而,请注意准确率并非总是能说明全部情况。想象一个数据集,其中100封邮件中有99封是“非垃圾邮件”。一个总是预测“非垃圾邮件”的“偷懒”模型也能达到99%的准确率!但它完全无法完成其重要的任务:识别垃圾邮件。我们将在后面详细讨论分类算法时,重新考察更详细的分类指标。目前,准确率v为我们提供了一个基本的起点。
对于回归任务,其目的是预测一个连续的数值(例如房屋价格或明天的温度),准确率就不适用了。如果实际房价是250,100就不能简单地说是“对”或“错”。它很接近,但仍然存在误差。
相反,我们需要能够量化 (quantization)预测平均偏离程度的指标。针对这种情况,两种常见的指标是均方误差(Mean Squared Error, MSE)和均方根误差(Root Mean Squared Error, RMSE)。
均方误差 (MSE): 这个指标计算的是实际值 () 与预测值 () 之间差值的平方的平均值。 这里, 是测试集中的数据点数量。我们将差值 平方有两个主要原因:
均方根误差 (RMSE): 这就是 MSE 的平方根。 RMSE 的好处是它的单位与原始目标变量的单位相同(例如,如果预测价格,单位就是美元)。如果你的房价预测模型 RMSE 为 15,000。这比 MSE 直观得多。MSE 和 RMSE 的值越低,表示模型对数据的拟合越好。
这些指标(准确率、MSE、RMSE)是基础工具。它们使你能够:
随着学习的推进,你还会碰到许多针对特定情况设计的其他指标。但理解分类任务的准确率和回归任务的 MSE/RMSE,为评估机器学习 (machine learning)模型的有效性奠定了扎实的基础。这些度量方法是在构建有用且可靠的预测系统过程中的重要指导。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•