趋近智
在介绍了基本和自适应优化算法之后,我们现在转向能改进训练过程的方法。选择Adam或SGD这样的优化器只是一个方面;实现高效训练和良好模型性能常常需要仔细关注初始化、学习率调整以及多种超参数 (parameter) (hyperparameter)的设置。
本章将讨论这些重要的改进方法。我们将从参数初始化策略开始,例如Xavier和He初始化,这些策略旨在为模型设定合适的初始权重 (weight),以加快收敛速度。接下来讨论学习率调度,涵盖阶梯衰减、指数衰减和预热期等方法,这些方法能在训练过程中动态调整学习率 。最后,我们将讨论超参数调整,考虑网格搜索和随机搜索等系统化方式,以找到学习率、正则化 (regularization)强度(例如 / 的 )和批量大小的有效值,包括批量大小与学习率之间的相互影响。
学完本章后,您将明白如何应用这些方法并设置主要超参数,以提升深度学习 (deep learning)模型的训练稳定性、速度和泛化能力。
7.1 参数初始化的重要性
7.2 常见的初始化策略(戈洛特,何凯明)
7.3 学习率调度的缘由
7.4 步进衰减策略
7.5 指数衰减及其他调度方法
7.6 预热策略
7.7 调整超参数:学习率、正则化强度、批大小
7.8 批处理大小与学习率的关系
7.9 超参数:网格搜索与随机搜索的比较
7.10 实施学习率调度
7.11 实践:模型超参数调整