趋近智
首页
博客
课程
大模型
中
所有课程
深度学习中的模型正则化与优化
章节 1: 泛化能力的挑战
模型泛化介绍
理解欠拟合与过拟合
深度学习中的偏差-方差权衡
诊断模型表现:学习曲线
验证与交叉验证策略
正则化与优化的作用
配置开发环境
动手:过拟合的可视化
章节 2: 权重正则化方法
权重正则化背后的理念
L2正则化(权重衰减):机制
L2 正则化:数学公式
L1 正则化:机制与稀疏性
L1 正则化:数学表述
L1和L2正则化的比较
弹性网络:L1与L2的结合
权重正则化的实现
动手实践:将L1/L2应用于网络
章节 3: 丢弃法正则化
Dropout介绍:避免协同适应
Dropout 在训练时的工作原理
在测试时调整激活值
反转Dropout实现
Dropout 比率作为超参数
卷积层和循环层的使用考量
在实践中应用Dropout
动手实践:添加 Dropout 层
章节 4: 训练稳定性归一化技术
内部协变量偏移问题
批归一化介绍
批量归一化:前向传播计算
批标准化:反向传播计算
批量归一化的好处
测试时的批量归一化
网络中的考量与放置
层归一化简介
实现批量归一化
动手实践:整合批标准化
章节 5: 基本优化算法
回顾梯度下降
标准梯度下降的难题
随机梯度下降(SGD)
小批量梯度下降
SGD的挑战:噪声与局部最小值
带动量的随机梯度下降:加速收敛
涅斯捷罗夫加速梯度 (NAG)
实现SGD和动量
实践:比较梯度下降、随机梯度下降和动量法
章节 6: 自适应优化算法
自适应学习率的必要性
AdaGrad:调整每个参数的学习率
AdaGrad 的局限性:学习率衰减
RMSprop:处理AdaGrad的局限性
Adam:自适应矩估计
Adam算法细致分析
Adamax 和 Nadam 变体(简要概述)
优化器选择指南
实现 Adam 和 RMSprop
动手实践:优化器比较实验
章节 7: 优化细节调整与超参数调整
参数初始化的重要性
常见的初始化策略(戈洛特,何凯明)
学习率调度的缘由
步进衰减策略
指数衰减及其他调度方法
预热策略
调整超参数:学习率、正则化强度、批大小
批处理大小与学习率的关系
超参数:网格搜索与随机搜索的比较
实施学习率调度
实践:模型超参数调整
章节 8: 技术组合与实际考量
正则化与优化之间的联动
典型的深度学习训练流程
训练监控:损失曲线与指标
提前停止作为正则化
结合 Dropout 与批归一化
数据增强作为隐式正则化
选择恰当的技术组合
调试与优化/正则化相关的训练问题
动手实践:构建与调整正则化/优化模型
反转Dropout实现
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning