趋近智
首页
博客
课程
大模型
中
所有课程
机器学习高级优化技术
章节 1: 机器学习优化的根本原则
重温梯度下降变体
凸性的作用
理解损失曲面
收敛性分析基本原理
非凸优化中的挑战
数值稳定性考量
实践:分析收敛行为
章节 2: 二阶优化方法
牛顿法:理论与推导
海森矩阵:计算与性质
牛顿法的难点
拟牛顿法:近似Hessian矩阵
BFGS算法详解
有限内存BFGS (L-BFGS)
信赖域方法
动手实践:L-BFGS 的实现
章节 3: 自适应学习率算法
固定学习率的局限性
AdaGrad:根据过往梯度调整学习率
RMSprop:处理AdaGrad学习率递减的问题
Adam:结合动量与RMSprop
Adamax 和 Nadam 变体
AMSGrad:提升 Adam 的收敛性
了解学习率调整策略
实践操作:比较自适应优化器
章节 4: 大规模数据集的优化
随机梯度下降再讨论:方差减小
随机平均梯度 (SAG)
随机方差缩减梯度 (SVRG)
小批量梯度下降的权衡
异步随机梯度下降
数据并行策略
SVRG 的动手实现
章节 5: 分布式优化策略
分布式训练的动机
参数服务器架构
同步更新与异步更新
通信瓶颈与应对策略
All-Reduce 算法
联邦学习优化原理
实践操作:模拟分布式SGD
章节 6: 深度学习中的优化难题
深度学习损失曲面的特点
网络架构对优化的影响
规范化方法与优化
梯度裁剪与梯度爆炸/消失
初始化方法及其影响
正则化方法:优化过程的隐性作用
实践:深度网络优化器调优
章节 7: 高级与专项优化专题
受限优化基本原理
拉格朗日对偶性与KKT条件
投影梯度方法
无导数优化概述
贝叶斯优化用于超参数调优
强化学习策略的优化
实践:实现投影梯度下降