趋近智
你已经了解回归是为了预测一个连续的数值,比如房屋价格或身高。现在,我们来看看用于此目的的最基础算法之一:线性回归。
假设你有一些数据点绘制在图表上。例如,你可能正在观察学生学习时长与他们在考试中获得分数之间的关系。你可能会注意到一个规律:通常,学习时间越长,分数越高。线性回归试图通过在数据点之间绘制一条直线来抓住这个规律。
线性回归主要假定输入变量(或多个变量)与输出变量之间的关系近似为线性。这意味着我们可以用一条直线来概括这种关系。
考虑一个简单情况:有一个输入变量 (例如学习时长)和一个要预测的输出变量 (例如考试分数)。在这种情况下,可以使用直线方程来表示 和 之间的关系。
在这个方程中:
简单线性回归(简单指只有一个输入变量)的目标是找到 和 的特定值,使得到的直线“最能”拟合观测到的数据点。“最能拟合”是什么意思?直观来说,它意味着这条直线整体上最接近所有数据点。我们稍后讨论成本函数时会更精确地说明这一点。
让我们通过视觉来理解。假设我们有以下显示经验年限()与薪资(,单位:千美元)的数据:
| 经验(年) | 薪资(千美元) |
|---|---|
| 1 | 45 |
| 2 | 50 |
| 3 | 60 |
| 4 | 65 |
| 5 | 75 |
| 6 | 80 |
我们可以绘制这些点:
数据显示经验年限与薪资之间存在正向关系。
线性回归旨在这些点中绘制一条最能代表潜在规律的直线。例如,这条直线可能看起来像这样(我们尚未计算出最精确的直线,这仅是说明):
相同的数据点,以及一条可能试图捕捉其规律的直线。
一旦我们找到这条直线的最佳 和 值,就可以使用方程 进行预测。如果某人有3.5年经验,我们可以将 代入方程来预测他们的薪资()。
线性回归是机器学习 (machine learning)中一项基础算法,原因如下:
尽管不适用于所有问题(特别是那些具有复杂、非线性模式的问题),线性回归通常是回归任务中一个很好的首选算法。在接下来的部分中,我们将了解该算法如何实际地从数据中“学习”到 和 的最佳值。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•