趋近智
选择合适的初始化策略和学习率调度能为训练提供良好起点,但深度学习模型的性能往往很大程度上取决于为几个重要超参数找到合适的值。这些设置是在训练过程开始前配置的,不同于在训练期间学习到的模型参数(权重和偏置)。调整这些超参数是深度学习工作流程的一个重要环节,通常需要系统化尝试和实验。
主要关注三个影响较大的超参数:学习率()、正则化强度()和迷你批大小。理解如何调整这些参数能明显影响模型收敛速度、最终性能以及对新数据的泛化能力。
回顾一下,模型参数是网络中的权重和偏置,优化算法在训练过程中调整它们以最小化损失函数。另一方面,超参数是定义模型结构或训练过程本身的外部配置。例子包括:
找到超参数的良好组合通常更像艺术而非科学,这依靠经验、直觉和迭代实验来指引。
学习率可以说是最重要的超参数。如前几章所述,它控制着梯度下降期间的步长。
寻找有效的学习率通常需要在对数范围内进行搜寻,例如 。Adam优化器常用的起始点通常在 或 左右,而带动量的SGD可能从 左右开始。然而,这些只是经验法则,最优值很大程度上取决于数据集、模型架构、优化器选择,甚至批大小。
学习率调度(之前已讨论)通过在训练期间调整 提供帮助,但初始学习率和调度本身的参数(例如,衰减率、步长)仍需仔细选择。监控训练损失曲线很重要;快速下降但稳定的损失表明学习率良好,而震荡或发散则表示它可能过高。
不同学习率下训练损失曲线的示例。选择得当的学习率会显示稳步下降,而过小的学习率收敛缓慢,过大的学习率则导致不稳定或发散。
正则化技术,如L1和L2(权重衰减),在第2章中有所提及,它们根据模型权重的量级向损失函数添加一个惩罚项。正则化强度,通常用 (lambda) 表示,控制着这个惩罚的权重。
与学习率类似, 也常在对数尺度上调整,尝试 等值。最优值取决于在没有正则化的情况下观察到的过拟合程度。如果模型严重过拟合(训练和验证损失/准确率之间存在较大差异),则可能需要更大的 。如果模型欠拟合,则应减小 或将其设置为零。请记住,Dropout和批归一化等其他正则化技术也会影响最优 。
批大小决定了在更新模型权重之前处理多少训练样本。它影响着训练动态和计算资源的使用。
批大小的选择通常受限于GPU内存。常见做法是,从32、64或128等标准大小开始,然后根据性能和内存限制进行调整。同时也要注意批大小和学习率之间的关系,我们将在下一节中阐述。由于硬件内存对齐效率,批大小常选择2的幂次方,但这并非严格要求。
找到这些超参数的正确组合对于最大化模型性能很重要。接下来的章节将讨论网格搜索和随机搜索等策略,以更系统地应对这个复杂的调整过程。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造