趋近智
我们已经知道机器学习 (machine learning)模型常以函数形式表示,我们的目标通常是优化它们,找出能产生最佳结果(例如,最低误差)的输入(参数 (parameter))。但我们如何系统地找出这些“最佳”参数呢?尤其当模型有数百万个参数时,随意尝试数值的效率很低。我们需要一个方法来知道应该朝哪个方向调整参数。
想象一下你正站在浓雾笼罩的山坡上,想要到达最低点。你无法看清整个区域,但能感受到你所处位置的地面坡度。如果地面向左下方倾斜,你就会向左迈一步。如果地面向前方倾斜,你就会向前迈一步。这种“坡度”告诉你最陡峭的下降方向。
在数学中,衡量函数在特定点的瞬时斜率或变化率的工具就是导数。
设想一个函数 ,它表示模型基于单个参数 (parameter) 的成本(模型表现有多差)。我们想要找出使 最小的 值。 相对于 的导数,通常写作 或 ,告诉我们当输入 有很小的变化时,输出 会改变多少。
从几何角度看,导数 给出的是函数 在 处的切线斜率。
考虑函数 。让我们在不同点可视化它的斜率:
图表显示了函数 。在 处,切线(红色虚线)向下倾斜(负导数),表明函数正在递减。在 处,切线(黄色虚线)是水平的(零导数),表明可能存在一个最小值。在 处,切线(绿色虚线)向上倾斜(正导数),表明函数正在递增。
这种思路可以直接应用于机器学习 (machine learning)模型的优化。“成本函数”是我们希望最小化的函数。模型的参数 (parameter)是此函数的输入。
如果我们计算成本函数相对于某个参数的导数:
通过计算所有参数的导数,我们知道成本函数的“最陡峭上升方向”。为了最小化成本,我们只需向相反方向迈一小步。这是梯度下降 (gradient descent)背后的主要思想,梯度下降是机器学习中最常用的优化算法之一,我们后续会详细讨论。
目前,主要要点是导数提供了一种量化 (quantization)衡量方式,说明函数输出如何随输入变化。这种衡量方式对处理模型成本函数的复杂细节并逐步调整参数以找出最佳值非常重要。在后续章节中,我们将规范导数的定义,学习如何计算各种函数的导数,并将这些思想扩展到具有许多输入(参数)的函数,这在机器学习中是常见情况。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造