趋近智
在监督机器学习中,我们的目标通常是学习从输入特征到输出变量的映射关系。当我们试图预测的输出变量是连续的数值时,我们处理的是一个回归问题。这与下一章将介绍的分类问题形成对比,分类问题的目标是预测一个离散的类别或标签(例如“垃圾邮件”与“非垃圾邮件”,或“猫”与“狗”)。
可以将回归视为尝试回答“有多少?”或“什么值?”。以下是回归技术的一些典型应用场景:
在每个例子中,我们旨在预测的目标变量(价格、销售量、千瓦时、信用评分、产量)都可以取一系列广泛的连续值。
从数学角度看,我们可以这样来描述一个回归问题:我们有一个包含 n 个观测值的数据集。每个观测值 i 都有一组输入特征(也称为自变量或预测变量),表示为向量 Xi,以及一个对应的连续目标变量(或因变量、响应变量),表示为 yi。
我们的目标是学习一个模型,本质上是一个函数 f,它能够近似特征 X 和目标 y 之间的关系:
y≈f(X)函数 f 是从训练数据中学习得到的。一旦学习完成,该模型就可以用来预测新的、未见过特征输入 Xnew 的目标值 ynew。
对于简单情况,特别是只有一两个特征时,我们可以可视化特征与目标之间的关系。如果我们只有一个特征 x 和一个目标 y,我们可以创建一个散点图,其中每个点代表一个观测值 (xi,yi)。在这种可视化背景下,回归模型的目标通常是找到一条最能拟合这些点模式的直线或曲线。
一个散点图,显示了单个特征(学习时长)与连续目标变量(考试分数)之间可能存在的关系。回归模型旨在捕捉这种趋势。
这个难点,以及线性回归等算法(我们将在下文介绍)的目的,在于找到函数 f 的特定参数,以便根据提供的数据最准确地表示这种潜在关系。Scikit-learn 提供了各种算法的高效实现,专门用于解决这类问题。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造