偏导数衡量函数沿着坐标轴(如同在地图上纯粹地向东或向北移动)的变化率。梯度向量 (vector) ∇ f \nabla f ∇ f 指向最陡峭的上升方向(即最快爬坡的方向)。
但如果你想知道地形在另一个 特定方向上有多陡峭呢?或许你想向东北移动,或沿着一个由向量表示的任意路径移动。这正是方向导数 使我们能够计算的。它量化 (quantization)了多变量函数 f f f 在特定点 a \mathbf{a} a 沿由单位向量 u \mathbf{u} u 指定的方向移动时的变化率。
定义方向导数
函数 f f f 在点 a \mathbf{a} a 沿单位向量 (vector) u \mathbf{u} u 方向的方向导数记作 D u f ( a ) D_{\mathbf{u}}f(\mathbf{a}) D u f ( a ) 。它通过该点的梯度与方向向量的点积来计算:
D u f ( a ) = ∇ f ( a ) ⋅ u D_{\mathbf{u}}f(\mathbf{a}) = \nabla f(\mathbf{a}) \cdot \mathbf{u} D u f ( a ) = ∇ f ( a ) ⋅ u
我们来详细说明一下:
梯度 ∇ f ( a ) \nabla f(\mathbf{a}) ∇ f ( a ) : 如我们所知,这个向量包含了 f f f 在 a \mathbf{a} a 处求值的所有偏导数。对于函数 f ( x , y ) f(x, y) f ( x , y ) ,∇ f ( a ) = ⟨ ∂ f ∂ x ( a ) , ∂ f ∂ y ( a ) ⟩ \nabla f(\mathbf{a}) = \langle \frac{\partial f}{\partial x}(\mathbf{a}), \frac{\partial f}{\partial y}(\mathbf{a}) \rangle ∇ f ( a ) = ⟨ ∂ x ∂ f ( a ) , ∂ y ∂ f ( a )⟩ 。它概括了函数在点 a \mathbf{a} a 处所有坐标轴方向上的变化率信息。
单位向量 u \mathbf{u} u : 这个向量指定了所关注的方向。重要的是 u \mathbf{u} u 是一个单位 向量,这意味着它的长度或模为 1 (∣ ∣ u ∣ ∣ = 1 ||\mathbf{u}|| = 1 ∣∣ u ∣∣ = 1 )。为什么?因为我们只想捕捉由方向本身引起的变化,而不是由方向向量的长度缩放后的变化。如果你有一个由向量 v \mathbf{v} v 指定的方向,而它不是 一个单位向量,你必须首先通过除以其模来标准化它:u = v ∣ ∣ v ∣ ∣ \mathbf{u} = \frac{\mathbf{v}}{||\mathbf{v}||} u = ∣∣ v ∣∣ v 。
点积 (⋅ \cdot ⋅ ): 点积有效地衡量了一个向量与另一个向量“方向一致”的程度。
几何解释:投影
回顾一下,两个向量 (vector) v 1 \mathbf{v}_1 v 1 和 v 2 \mathbf{v}_2 v 2 的点积也可以表示为 v 1 ⋅ v 2 = ∣ ∣ v 1 ∣ ∣ ∣ ∣ v 2 ∣ ∣ cos θ \mathbf{v}_1 \cdot \mathbf{v}_2 = ||\mathbf{v}_1|| ||\mathbf{v}_2|| \cos \theta v 1 ⋅ v 2 = ∣∣ v 1 ∣∣∣∣ v 2 ∣∣ cos θ ,其中 θ \theta θ 是它们之间的夹角。
将此应用于我们的方向导数公式,并且知道 ∣ ∣ u ∣ ∣ = 1 ||\mathbf{u}|| = 1 ∣∣ u ∣∣ = 1 ,我们得到:
D u f ( a ) = ∇ f ( a ) ⋅ u = ∣ ∣ ∇ f ( a ) ∣ ∣ ∣ ∣ u ∣ ∣ cos θ = ∣ ∣ ∇ f ( a ) ∣ ∣ cos θ D_{\mathbf{u}}f(\mathbf{a}) = \nabla f(\mathbf{a}) \cdot \mathbf{u} = ||\nabla f(\mathbf{a})|| \, ||\mathbf{u}|| \cos \theta = ||\nabla f(\mathbf{a})|| \cos \theta D u f ( a ) = ∇ f ( a ) ⋅ u = ∣∣∇ f ( a ) ∣∣ ∣∣ u ∣∣ cos θ = ∣∣∇ f ( a ) ∣∣ cos θ
在这里,θ \theta θ 是梯度向量 ∇ f ( a ) \nabla f(\mathbf{a}) ∇ f ( a ) 和方向向量 u \mathbf{u} u 之间的夹角。这个公式提供了一个有益的观点:方向导数是梯度向量在方向向量 u \mathbf{u} u 上的标量投影 。这就像在问:“梯度的模有多少指向 u \mathbf{u} u 方向?”
方向导数 D u f D_{\mathbf{u}}f D u f 是梯度向量 ∇ f \nabla f ∇ f 在单位方向向量 u \mathbf{u} u 上的标量投影。它衡量了梯度在方向 u \mathbf{u} u 上起作用的分量。
这种投影视角有助于理解梯度与方向导数之间的关系:
最大变化: 当 u \mathbf{u} u 指向与 ∇ f ( a ) \nabla f(\mathbf{a}) ∇ f ( a ) 相同的方向时,夹角 θ \theta θ 为 0,cos θ = 1 \cos \theta = 1 cos θ = 1 ,并且 D u f ( a ) = ∣ ∣ ∇ f ( a ) ∣ ∣ D_{\mathbf{u}}f(\mathbf{a}) = ||\nabla f(\mathbf{a})|| D u f ( a ) = ∣∣∇ f ( a ) ∣∣ 。方向导数达到最大值,并等于梯度的模。这证实了梯度指向最陡峭的上升方向。
最小变化(最陡峭下降): 当 u \mathbf{u} u 指向与 ∇ f ( a ) \nabla f(\mathbf{a}) ∇ f ( a ) 正相反的方向时,夹角 θ \theta θ 为 π \pi π (180 度),cos θ = − 1 \cos \theta = -1 cos θ = − 1 ,并且 D u f ( a ) = − ∣ ∣ ∇ f ( a ) ∣ ∣ D_{\mathbf{u}}f(\mathbf{a}) = -||\nabla f(\mathbf{a})|| D u f ( a ) = − ∣∣∇ f ( a ) ∣∣ 。这是最陡峭的下降方向。
零变化: 当 u \mathbf{u} u 与 ∇ f ( a ) \nabla f(\mathbf{a}) ∇ f ( a ) 正交(垂直)时,夹角 θ \theta θ 为 π / 2 \pi/2 π /2 (90 度),cos θ = 0 \cos \theta = 0 cos θ = 0 ,并且 D u f ( a ) = 0 D_{\mathbf{u}}f(\mathbf{a}) = 0 D u f ( a ) = 0 。沿此方向移动会导致函数值的瞬时变化为零。从几何角度看,你正沿着函数曲面上的等高线或等值线移动。
计算示例
我们考虑函数 f ( x , y ) = x 2 + y 2 f(x, y) = x^2 + y^2 f ( x , y ) = x 2 + y 2 ,它描述了一个以原点为中心的抛物面碗形。我们想找到在点 a = ( 1 , 1 ) \mathbf{a} = (1, 1) a = ( 1 , 1 ) 处沿向量 (vector) v = ⟨ 1 , 2 ⟩ \mathbf{v} = \langle 1, 2 \rangle v = ⟨ 1 , 2 ⟩ 方向的变化率。
计算梯度:
∇ f ( x , y ) = ⟨ ∂ f ∂ x , ∂ f ∂ y ⟩ = ⟨ 2 x , 2 y ⟩ \nabla f(x, y) = \langle \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \rangle = \langle 2x, 2y \rangle ∇ f ( x , y ) = ⟨ ∂ x ∂ f , ∂ y ∂ f ⟩ = ⟨ 2 x , 2 y ⟩ 。
在 a = ( 1 , 1 ) \mathbf{a} = (1, 1) a = ( 1 , 1 ) 处评估梯度:
∇ f ( 1 , 1 ) = ⟨ 2 ( 1 ) , 2 ( 1 ) ⟩ = ⟨ 2 , 2 ⟩ \nabla f(1, 1) = \langle 2(1), 2(1) \rangle = \langle 2, 2 \rangle ∇ f ( 1 , 1 ) = ⟨ 2 ( 1 ) , 2 ( 1 )⟩ = ⟨ 2 , 2 ⟩ 。这个向量直接远离原点,是这种碗形的最陡峭上升方向。
找到方向 v = ⟨ 1 , 2 ⟩ \mathbf{v} = \langle 1, 2 \rangle v = ⟨ 1 , 2 ⟩ 的单位向量 u \mathbf{u} u :
模:∣ ∣ v ∣ ∣ = 1 2 + 2 2 = 1 + 4 = 5 ||\mathbf{v}|| = \sqrt{1^2 + 2^2} = \sqrt{1 + 4} = \sqrt{5} ∣∣ v ∣∣ = 1 2 + 2 2 = 1 + 4 = 5 。
标准化:u = v ∣ ∣ v ∣ ∣ = ⟨ 1 5 , 2 5 ⟩ \mathbf{u} = \frac{\mathbf{v}}{||\mathbf{v}||} = \langle \frac{1}{\sqrt{5}}, \frac{2}{\sqrt{5}} \rangle u = ∣∣ v ∣∣ v = ⟨ 5 1 , 5 2 ⟩ 。
使用点积计算方向导数:
D u f ( 1 , 1 ) = ∇ f ( 1 , 1 ) ⋅ u = ⟨ 2 , 2 ⟩ ⋅ ⟨ 1 5 , 2 5 ⟩ D_{\mathbf{u}}f(1, 1) = \nabla f(1, 1) \cdot \mathbf{u} = \langle 2, 2 \rangle \cdot \langle \frac{1}{\sqrt{5}}, \frac{2}{\sqrt{5}} \rangle D u f ( 1 , 1 ) = ∇ f ( 1 , 1 ) ⋅ u = ⟨ 2 , 2 ⟩ ⋅ ⟨ 5 1 , 5 2 ⟩
D u f ( 1 , 1 ) = ( 2 ) ( 1 5 ) + ( 2 ) ( 2 5 ) = 2 5 + 4 5 = 6 5 D_{\mathbf{u}}f(1, 1) = (2)(\frac{1}{\sqrt{5}}) + (2)(\frac{2}{\sqrt{5}}) = \frac{2}{\sqrt{5}} + \frac{4}{\sqrt{5}} = \frac{6}{\sqrt{5}} D u f ( 1 , 1 ) = ( 2 ) ( 5 1 ) + ( 2 ) ( 5 2 ) = 5 2 + 5 4 = 5 6 。
因此,在点 ( 1 , 1 ) (1, 1) ( 1 , 1 ) 处,如果我们沿方向 ⟨ 1 , 2 ⟩ \langle 1, 2 \rangle ⟨ 1 , 2 ⟩ 移动,函数 f ( x , y ) f(x, y) f ( x , y ) 以大约 6 5 ≈ 2.68 \frac{6}{\sqrt{5}} \approx 2.68 5 6 ≈ 2.68 单位每单位移动距离的速度增加。请注意,这小于梯度的模,∣ ∣ ∇ f ( 1 , 1 ) ∣ ∣ = ∣ ∣ ⟨ 2 , 2 ⟩ ∣ ∣ = 2 2 + 2 2 = 8 ≈ 2.83 ||\nabla f(1, 1)|| = ||\langle 2, 2 \rangle|| = \sqrt{2^2 + 2^2} = \sqrt{8} \approx 2.83 ∣∣∇ f ( 1 , 1 ) ∣∣ = ∣∣ ⟨ 2 , 2 ⟩ ∣∣ = 2 2 + 2 2 = 8 ≈ 2.83 ,后者是最陡峭方向 ⟨ 2 , 2 ⟩ \langle 2, 2 \rangle ⟨ 2 , 2 ⟩ 上的变化率。
在机器学习 (machine learning)中的意义
在机器学习优化中,特别是梯度下降 (gradient descent),我们主要关注最陡峭的下降 方向,即 − ∇ f -\nabla f − ∇ f 。然而,理解方向导数能提供关于参数 (parameter)空间的有益背景。它帮助我们思考为何沿着负梯度方向移动是(局部)最小化损失函数 (loss function)最有效的一步。虽然在标准梯度下降过程中通常不会明确计算,但它支持我们理解函数在模型训练期间所处的高维参数空间中如何表现。这加强了梯度在优化指导中的核心作用。