在衡量机器学习模型表现如何之前,让我们说明一下在这种情况下“模型”的含义。你已经看到评估是一个非常重要的步骤,但我们到底在评估什么呢?可以把机器学习模型看作一种特殊的计算机程序。与开发者编写明确、一步步指令(如果这样,就那样做)的传统程序不同,机器学习模型直接从数据中学习自己的规则。它会在训练数据中找出规律、趋势和关联。模型可以被看作一个数学函数,我们称之为 $f$。这个函数接收一些输入数据,通常称为特征,并生成一个输出。输入(特征): 这些是你所关注事物的可衡量属性或特性。例如,如果你想预测房价,特征可能是房屋的面积、卧室数量和房龄。模型($f$): 这是学得的函数。它包含在利用示例数据进行“训练”过程中调整的内部参数或结构。它包含了从数据中学到的规律。输出(预测/估计): 这是模型在接收新输入特征时生成的结果。它可以是一个类别(例如“垃圾邮件”或“非垃圾邮件”)或一个数值(例如“$250,000$”)。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fillcolor="#e9ecef", style=filled]; edge [color="#868e96"]; Input [label="输入数据\n(特征)"]; Model [label="机器学习\n模型 (f)", shape= Mrecord, fillcolor="#a5d8ff", color="#1c7ed6"]; Output [label="输出\n(预测)"]; Input -> Model; Model -> Output; }机器学习模型接收输入特征并生成输出预测的简化视图。让我们回顾一下前面提到的问题类型:分类问题中的模型在分类问题中,模型学会将输入分配到预定义的类别或分类中。示例: 电子邮件垃圾邮件检测器。输入特征: 电子邮件主题中的词语、发件人地址、发送时间。模型: 学习哪些特征组合是垃圾邮件与合法邮件(通常称为“非垃圾邮件”)的典型特征。输出: 一个类别标签,例如 spam 或 ham。模型主要是学习一个决策边界,根据输入特征来区分不同的类别。回归问题中的模型在回归问题中,模型学会预测一个连续的数值。示例: 预测二手车的价格。输入特征: 汽车的品牌、型号、年份、里程、状况。模型: 学习这些特征与汽车市场价值之间的关系。这可能类似于学习一个方程的参数,例如在简单线性关系 $y = mx + b$ 中找到斜率 ($m$) 和截距 ($b$)。输出: 一个数值,例如 $15,200。所以,当我们谈论评估模型时,我们是在评估这个学得的函数 $f$ 在遇到新的、以前未见过的数据时,能够多么准确和稳定地产生正确的输出(类别或数值)。目标是确定模型从训练数据中学到的规律是否能很好地应用于实际情况。