向上凹： 如果在某个区间内 $f''(x) > 0$ ，则斜率 $f'(x)$ 正在增加。图形向上弯曲，就像一个盛水的杯子。
向下凹： 如果在某个区间内 $f''(x) < 0$ ，则斜率 $f'(x)$ 正在减小。图形向下弯曲，就像一个倒扣的杯子或一个穹顶。
拐点： 凹凸性发生变化（从向上凹到向下凹，或从向下凹到向上凹）的点称为拐点。在这样的点上，我们常会发现 $f''(x) = 0$ ，尽管 $f''(x) = 0$ 不能保证是拐点。

考虑函数 $f(x) = x^3$ 。它的一阶导数是 $f'(x) = 3x^2$ 。它的二阶导数是 $f''(x) = 6x$ 。

对于 $x > 0$ ， $f''(x) > 0$ ，所以 $f(x)=x^3$ 的图是向上凹的。
对于 $x < 0$ ， $f''(x) < 0$ ，所以 $f(x)=x^3$ 的图是向下凹的。
当 $x = 0$ 时， $f''(x) = 0$ 。点 $(0,0)$ 是一个凹凸性改变的拐点。

函数 $f(x)=x^3$ 在 $x=0$ 处从向下凹（ $f''(x)<0$ ）变为向上凹（ $f''(x)>0$ ）。留意斜率 $f'(x)$ 如何在 $x=0$ 处之前减小，然后增加。

二阶导数之后的导数

我们可以继续这个过程。对二阶导数 $f''(x)$ 求导会得到三阶导数，表示为 $f'''(x)$ 或 $\frac{d^3y}{dx^3}$ 。再次求导会得到四阶导数， $f^{(4)}(x)$ 或 $\frac{d^4y}{dx^4}$ ，依此类推。函数 $f(x)$ 经过 $n$ 次求导所得的结果是n 阶导数，表示为 $f^{(n)}(x)$ 或 $\frac{d^ny}{dx^n}$ 。

我们来求一个多项式的前几阶导数： $f(x) = 2x^4 - 5x^3 + x^2 - 7x + 3$

一阶导数（斜率）： $f'(x) = \frac{d}{dx}(2x^4 - 5x^3 + x^2 - 7x + 3)$ $f'(x) = 8x^3 - 15x^2 + 2x - 7$
二阶导数（凹凸性）： $f''(x) = \frac{d}{dx}(8x^3 - 15x^2 + 2x - 7)$ $f''(x) = 24x^2 - 30x + 2$
三阶导数（凹凸性的变化率）： $f'''(x) = \frac{d}{dx}(24x^2 - 30x + 2)$ $f'''(x) = 48x - 30$
四阶导数： $f^{(4)}(x) = \frac{d}{dx}(48x - 30)$ $f^{(4)}(x) = 48$
五阶导数（及更高阶）： $f^{(5)}(x) = \frac{d}{dx}(48)$ $f^{(5)}(x) = 0$ 所有后续导数也将为零。

高阶导数为何重要

一阶导数说明了变化方向（函数是递增还是递减？），二阶导数提供了关于函数图形状的重要信息。这在优化中特别有用。

在下一节，我们将了解如何结合一阶导数（以找出可能的平坦点，即 $f'(x)=0$ 的位置）和二阶导数（以检查这些点的弯曲度），从而可靠地确定局部最小值和最大值。这称为二阶导数判别法。

如果 $f'(c) = 0$ 且 $f''(c) > 0$ ，则函数在 $x=c$ 处向上凹，表明存在局部最小值。
如果 $f'(c) = 0$ 且 $f''(c) < 0$ ，则函数在 $x=c$ 处向下凹，表明存在局部最大值。

通过二阶导数对弯曲度的理解是分析机器学习中优化问题的根本。虽然我们在梯度下降等算法中主要使用一阶导数（梯度），但弯曲度这一认识（由二阶导数及其多变量对应物——Hessian 矩阵体现）有助于说明这些算法的行为并促成更高级的优化技术。

这部分内容有帮助吗？

参考文献

Convex Optimization, Stephen Boyd and Lieven Vandenberghe, 2004 (Cambridge University Press) - 这本有影响力的书涵盖了凸优化的理论和算法方面，其中高阶导数（尤其是Hessian矩阵）在分析函数曲率和优化算法收敛性方面发挥着基础作用。
Calculus Online Textbook and Videos, Gilbert Strang, 2010 (Wellesley-Cambridge Press) - 这提供了麻省理工学院免费、高质量的教育资源，涵盖了导数、凹凸性和优化等基础微积分概念。