趋近智
函数 的导数 描述了在任意给定点 处的瞬时变化率,或切线的斜率。斜率的这个概念是识别函数图上特定点(如峰值和谷值)的基础。
想象一下沿着由函数 表示的丘陵小路行走。当你到达山顶(最大值点)或山谷底部(最小值点)时,会有一段短暂的时刻,脚下的路径是平坦的,也就是水平的。水平路径的斜率为零。
这个直觉直接对应于微积分。如果一个光滑函数 在点 处达到局部最大值或局部最小值,并且在该点导数存在,那么在该点处的切线斜率必定为零。用数学表示就是:
导数为零(或无定义,尽管我们目前主要关注零)的点被称为 临界点。这些临界点是局部最大值或最小值可能出现的 候选点。
考虑函数 。这是一个抛物线。我们来用上一章学到的幂规则以及和/常数规则找到它的导数:
现在,我们通过将导数设为零来找到斜率为零的位置:
这告诉我们,当 时,函数的斜率为零。我们来看图表:
该图显示了抛物线 。红点标记 (token)了在 处的最小值点。红色虚线是该点的切线,它是水平的,表明斜率为 。
那么,为函数 寻找最大值或最小值(即临界点)的潜在位置的一般过程包含以下步骤:
有必要记住,找到 只会给你 候选点。虽然这些点通常对应于局部最大值或最小值,但它们偶尔也可能是其他类型的点(例如曲线暂时变平然后继续朝同一大致方向的拐点)。对于我们在机器学习 (machine learning)优化中的目标,我们通常是在寻找最小值,而 这个条件是找到它的主要起点。
寻找导数为零的这个步骤不只是一个数学练习。它构成了许多机器学习算法如何“训练”的根本。
设想你有一个机器学习模型,你定义了一个 成本函数(也称为损失函数 (loss function))。这个函数衡量模型预测与实际数据相比的“好坏”。值高表示模型表现不佳;值低表示模型表现良好。
训练模型的目的是调整其内部参数 (parameter),使成本函数尽可能小,理想情况下达到其最小值。如果我们可以将成本表示为模型参数的函数,我们就可以使用微积分来找到使此成本最小化的参数值。找到成本函数导数为零的位置,有助于我们定位这个最小误差状态,从而根据我们选择的成本衡量标准,获得最佳可能的模型性能。
在接下来的部分,我们将考察成本函数和特定算法——梯度下降 (gradient descent),该算法迭代地使用导数来找到这些最小值点,即使直接求解 困难或不可能。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•