趋近智
随机梯度下降 (gradient descent)(SGD)及其动量变体等优化器相比基本梯度下降有了显著改进,但它们通常依赖于一个学习率,这个学习率对所有参数 (parameter)一视同仁,或按照预设方案衰减。然而,深度网络中不同的参数可能需要不同的学习率调整,根据其梯度的历史信息。
本章介绍自适应优化算法,旨在自动为每个参数独立调整学习率。我们将考察几种常用方法:
您将学习自适应方法背后的动机,AdaGrad、RMSprop和Adam的具体更新机制,包括它们的数学基础和偏差修正技术。我们将讨论它们的优点、缺点,以及在标准深度学习 (deep learning)框架中的实现细节。最后,我们将提供实用建议,用于为您的模型选择合适的优化器。
6.1 自适应学习率的必要性
6.2 AdaGrad:调整每个参数的学习率
6.3 AdaGrad 的局限性:学习率衰减
6.4 RMSprop:处理AdaGrad的局限性
6.5 Adam:自适应矩估计
6.6 Adam算法细致分析
6.7 Adamax 和 Nadam 变体(简要概述)
6.8 优化器选择指南
6.9 实现 Adam 和 RMSprop
6.10 动手实践:优化器比较实验