趋近智
设计复杂的CNN架构,如前所述,给训练带来了难题。
深度很大的网络优化起来可能很困难,容易出现梯度消失或梯度爆炸等问题,且对超参数 (parameter) (hyperparameter)设置很敏感。本章将介绍有效且高效地训练这些模型所需的方法。
我们将介绍自适应调整各参数学习率的优化算法,例如AdamW和Lookahead。你将学习如何在整个训练过程中,使用各种策略管理学习率,包括周期性方法。我们将研究标签平滑和高级的Dropout变体等正则化 (regularization)方法,以提高泛化能力。此外,我们还将学习标准批量归一化 (normalization)的替代方案,适用于深度模型的权重 (weight)初始化策略,以及梯度裁剪等方法,以保持训练的稳定性。最后,我们将介绍混合精度训练等实际考量以提高速度和节省内存,同时介绍监控和调试训练循环的策略。
2.1 高级优化算法
2.2 学习率策略和周期性学习率
2.3 正则化再论:进阶方法
2.4 批量归一化内部运作及替代方案
2.5 深度网络的权重初始化策略
2.6 梯度裁剪与梯度流动缓解
2.7 混合精度训练的基本原理
2.8 深度CNN训练的调试与监控
2.9 动手实践:实现高级训练循环