趋近智
好的,我们来学习监督学习 (supervised learning)的第一种主要任务类型:回归。如果你回顾第一章,监督学习是指用我们已知“正确”答案的数据来训练模型。在回归任务中,这个正确答案是一个连续的数值。
考虑预测数量、总量或大小。其目的不是将项目归类(例如“垃圾邮件”或“非垃圾邮件”),而是估计连续范围内的某个具体数值。
当主要目标是预测一个连续输出变量时,一个机器学习 (machine learning)任务就被认为是回归问题。这个输出变量通常被称为目标变量、因变量或标签。用于进行预测的输入被称为特征、自变量或预测因子。
核心思想是学习输入特征与连续输出目标之间的映射或关系。我们使用一个包含样本的数据集,其中既有输入特征,也有已知且正确的输出值。机器学习算法研究这些样本以找出其内部规律,从而能够预测新的、未见过输入特征的输出。
考虑这些回归应用的常见情境:
在所有这些情况下,我们希望预测的变量原则上可以在给定范围内取任何值。
假设你有一些关于不同房屋大小与价格的关联数据。如果你绘制这些数据,可能会看到以下情况:
一个散点图,显示了房屋大小与价格的数据点。较大的房屋通常价格更高,但它不是一条完美的直线。
在回归任务中,我们的目标是学习一个模型,它通常以直线或曲线的形式呈现,最能反映这种数据趋势。例如,我们可以尝试用一条直线拟合这些点:
相同的散点图,添加了一条潜在的回归线。这条线代表了模型学习到的房屋大小与价格之间的关系。
这条拟合线代表了模型对这种关系的理解。一旦我们有了这条线(或更复杂的模型),我们就可以用它来预测我们以前从未见过的新房屋大小的价格。例如,如果有人询问一栋1500平方英尺的房屋,我们可以在直线上找到对应的点来估计其价格。
回归完全符合我们前面讨论过的监督学习 (supervised learning)框架:
形式上,我们正在学习一个函数,我们称之为 ,它以输入特征 为输入,生成输出值 (读作“y-hat”),这是我们对真实值 的预测。目标是使 平均而言尽可能接近 。因此,我们寻求:
使得 是真实 的一个很好的近似值。
主要观点是,回归处理连续范围内的数量预测。它回答的是“多少?”或“有多少?”这类问题,而不是“属于哪个类别?”。这使它与分类不同,分类是监督学习的另一种主要类型,侧重于分配离散标签。在接下来的部分中,我们将学习线性回归,这是一种解决这类预测问题的基本算法。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•