所有课程

深度学习中的模型正则化与优化

章节 1: 泛化能力的挑战

模型泛化介绍

理解欠拟合与过拟合

深度学习中的偏差-方差权衡

诊断模型表现：学习曲线

验证与交叉验证策略

正则化与优化的作用

配置开发环境

动手：过拟合的可视化

第 1 章测验

章节 2: 权重正则化方法

权重正则化背后的理念

L2正则化（权重衰减）：机制

L2 正则化：数学公式

L1 正则化：机制与稀疏性

L1 正则化：数学表述

L1和L2正则化的比较

弹性网络：L1与L2的结合

权重正则化的实现

动手实践：将L1/L2应用于网络

第 2 章测验

章节 3: 丢弃法正则化

Dropout介绍：避免协同适应

Dropout 在训练时的工作原理

在测试时调整激活值

反转Dropout实现

Dropout 比率作为超参数

卷积层和循环层的使用考量

在实践中应用Dropout

动手实践：添加 Dropout 层

第 3 章测验

章节 4: 训练稳定性归一化技术

内部协变量偏移问题

批归一化介绍

批量归一化：前向传播计算

批标准化：反向传播计算

批量归一化的好处

测试时的批量归一化

网络中的考量与放置

层归一化简介

实现批量归一化

动手实践：整合批标准化

第 4 章测验

章节 5: 基本优化算法

回顾梯度下降

标准梯度下降的难题

随机梯度下降（SGD）

小批量梯度下降

SGD的挑战：噪声与局部最小值

带动量的随机梯度下降：加速收敛

涅斯捷罗夫加速梯度 (NAG)

实现SGD和动量

实践：比较梯度下降、随机梯度下降和动量法

第 5 章测验

章节 6: 自适应优化算法

自适应学习率的必要性

AdaGrad：调整每个参数的学习率

AdaGrad 的局限性：学习率衰减

RMSprop：处理AdaGrad的局限性

Adam：自适应矩估计

Adam算法细致分析

Adamax 和 Nadam 变体（简要概述）

优化器选择指南

实现 Adam 和 RMSprop

动手实践：优化器比较实验

第 6 章测验

章节 7: 优化细节调整与超参数调整

参数初始化的重要性

常见的初始化策略（戈洛特，何凯明）

学习率调度的缘由

步进衰减策略

指数衰减及其他调度方法

调整超参数：学习率、正则化强度、批大小

批处理大小与学习率的关系

超参数：网格搜索与随机搜索的比较

实施学习率调度

实践：模型超参数调整

第 7 章测验

章节 8: 技术组合与实际考量

正则化与优化之间的联动

典型的深度学习训练流程

训练监控：损失曲线与指标

提前停止作为正则化

结合 Dropout 与批归一化

数据增强作为隐式正则化

选择恰当的技术组合

调试与优化/正则化相关的训练问题

动手实践：构建与调整正则化/优化模型

第 8 章测验

批处理大小与学习率的关系

这部分内容有帮助吗？

参考文献

Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour, Priya Goyal, Piotr Dollár, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, Kaiming He, 2017 arXiv preprint DOI: 10.48550/arXiv.1706.02677 - 介绍了学习率随大批量大小线性缩放的规则，并讨论了学习率预热的重要性。
On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima, Nitish Shirish Keskar, Dheevatsa Mudigere, Jorge Nocedal, Mikhail Smelyanskiy, Ping Tak Peter Tang, 2017 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1609.04836 - 研究了使用大批量训练时出现的泛化差距，将其归因于收敛到更尖锐的最小值。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 一本基础教材，涵盖了深度学习中的各种优化算法及其特性。
Don't Decay The Learning Rate, Increase The Batch Size, Samuel L. Smith, Pieter-Jan Kindermans, Chris Ying, Quoc V. Le, 2017 International Conference on Learning Representations (ICLR) 2018 DOI: 10.48550/arXiv.1711.00489 - 探讨了一种替代策略，即通过增加批量大小而非衰减学习率来实现高效训练。

© 2025 ApX Machine Learning用心打造