趋近智
在研究了通过正则化控制模型复杂度的方法之后,我们现在关注为深度学习模型寻找最优参数的过程。这个被称为优化的过程,是有效训练神经网络的核心。标准梯度下降提供了理论依据,但它应用于大型数据集时面临实际问题。
本章介绍深度学习中使用的基本优化算法。我们首先回顾标准梯度下降,并讨论它的局限性。然后您将了解:
在本章结束时,您将理解这些核心算法的运作原理,它们各自的优缺点,以及它们在模型训练过程中如何应对复杂损失曲面带来的挑战。我们还将在实践中实现并比较这些优化器。
5.1 回顾梯度下降
5.2 标准梯度下降的难题
5.3 随机梯度下降(SGD)
5.4 小批量梯度下降
5.5 SGD的挑战:噪声与局部最小值
5.6 带动量的随机梯度下降:加速收敛
5.7 涅斯捷罗夫加速梯度 (NAG)
5.8 实现SGD和动量
5.9 实践:比较梯度下降、随机梯度下降和动量法
© 2026 ApX Machine Learning用心打造