将其他变量视为常数是计算偏导数的主要思想。如果您对计算单变量函数(如 f(x))的导数很熟悉,那么您已经具备了大部分所需的能力。
求导步骤:固定变量再求导
当您需要求一个函数对某个特定变量的偏导数时,请遵循以下步骤:
- 确定目标变量: 确定您要对其进行求导的变量。例如,如果您要计算 ∂x∂f,您的目标变量就是 x。
- 将其他变量视为常数: 在心里(或者实际地,如果这有帮助的话)将函数中所有其他变量替换为固定常数。把它们想象成 5、-2 或 π 这样的数字。
- 应用标准求导法则: 现在,仅对您的目标变量,使用常用规则(如幂法则、常数法则、和法则)对函数进行求导。请记住,任何常数项的导数都为零。
让我们通过几个例子来使其更具体。
示例 1:一个简单多项式
考虑函数:
f(x,y)=x2+y3+4
我们来找到它对 x 和 y 的偏导数。
计算 ∂x∂f (对 x 的偏导数):
-
目标变量: x。
-
将其他变量视为常数: 将 y 视为常数。这意味着 y3 也被视为常数。数字 4 本身就是常数。
-
求导:
- x2 对 x 的导数是 2x。
- y3(被视为常数)对 x 的导数是 0。
- 4(一个常数)对 x 的导数是 0。
使用和法则将其组合起来:
∂x∂f=2x+0+0=2x
计算 ∂y∂f (对 y 的偏导数):
-
目标变量: y。
-
将其他变量视为常数: 将 x 视为常数。这意味着 x2 也被视为常数。数字 4 是一个常数。
-
求导:
- x2(被视为常数)对 y 的导数是 0。
- y3 对 y 的导数是 3y2。
- 4(一个常数)对 y 的导数是 0。
将其组合起来:
∂y∂f=0+3y2+0=3y2
请注意,这个过程如何隔离开仅一个变量变化的影响。当我们计算 ∂x∂f 时,y3 项消失了,因为从 x 的角度来看,y 没有变化。
示例 2:变量相乘的情况
我们来看一个在处理模型参数(如权重 (w) 和偏差 (b))时常见的函数结构:
g(w,b)=w2b+5w−2b+7
计算 ∂w∂g (对 w 的偏导数):
-
目标变量: w。
-
将其他变量视为常数: 将 b 视为常数。
-
求导:
- 考虑项 w2b。由于 b 被视为常数系数,w2b 对 w 的导数是 (b)×(2w)=2wb。(可以把它想象成求 5x2 的导数,结果是 5×2x=10x;这里 b 扮演 5 的角色。)
- 5w 对 w 的导数是 5。
- −2b(被视为常数)对 w 的导数是 0。
- 7(一个常数)对 w 的导数是 0。
将这些组合起来:
∂w∂g=2wb+5+0+0=2wb+5
计算 ∂b∂g (对 b 的偏导数):
-
目标变量: b。
-
将其他变量视为常数: 将 w 视为常数。这意味着 w2 和 5w 也被视为常数。
-
求导:
- 考虑项 w2b。由于 w2 被视为常数系数,w2b 对 b 的导数是 w2×1=w2。(可以把它想象成求 ax 对 x 的导数,结果是 a;这里 w2 扮演 a 的角色,b 扮演 x 的角色。)
- 5w(被视为常数)对 b 的导数是 0。
- −2b 对 b 的导数是 −2。
- 7(一个常数)对 b 的导数是 0。
将这些组合起来:
∂b∂g=w2+0−2+0=w2−2
要点
计算偏导数沿用了您为单变量函数学习的求导规则。核心技巧是暂时“固定”除您正在求导的变量之外的所有变量,在计算过程中将它们视为常数。这使您能够确定当单个目标变量变化时,函数输出如何变化,同时保持其他所有不变。这个技巧对于理解如何使用梯度下降等方法调整机器学习模型参数非常重要。