所有课程

机器学习高级优化技术

章节 1: 机器学习优化的根本原则

重温梯度下降变体

凸性的作用

理解损失曲面

收敛性分析基本原理

非凸优化中的挑战

数值稳定性考量

实践：分析收敛行为

章节 2: 二阶优化方法

牛顿法：理论与推导

海森矩阵：计算与性质

牛顿法的难点

拟牛顿法：近似Hessian矩阵

BFGS算法详解

有限内存BFGS (L-BFGS)

信赖域方法

动手实践：L-BFGS 的实现

章节 3: 自适应学习率算法

固定学习率的局限性

AdaGrad：根据过往梯度调整学习率

RMSprop：处理AdaGrad学习率递减的问题

Adam：结合动量与RMSprop

Adamax 和 Nadam 变体

AMSGrad：提升 Adam 的收敛性

了解学习率调整策略

实践操作：比较自适应优化器

章节 4: 大规模数据集的优化

随机梯度下降再讨论：方差减小

随机平均梯度 (SAG)

随机方差缩减梯度 (SVRG)

小批量梯度下降的权衡

异步随机梯度下降

数据并行策略

SVRG 的动手实现

章节 5: 分布式优化策略

分布式训练的动机

参数服务器架构

同步更新与异步更新

通信瓶颈与应对策略

All-Reduce 算法

联邦学习优化原理

实践操作：模拟分布式SGD

章节 6: 深度学习中的优化难题

深度学习损失曲面的特点

网络架构对优化的影响

规范化方法与优化

梯度裁剪与梯度爆炸/消失

初始化方法及其影响

正则化方法：优化过程的隐性作用

实践：深度网络优化器调优

章节 7: 高级与专项优化专题

受限优化基本原理

拉格朗日对偶性与KKT条件

投影梯度方法

无导数优化概述

贝叶斯优化用于超参数调优

强化学习策略的优化

实践：实现投影梯度下降

随机梯度下降再讨论：方差减小

这部分内容有帮助吗？

参考文献

Accelerating Stochastic Gradient Descent using Stochastic Variance Reduced Gradient, Rie Johnson, Tong Zhang, 2013 Advances in Neural Information Processing Systems, Vol. 26 (NeurIPS) - 介绍了随机方差减少梯度（SVRG）算法，这是随机梯度方法中方差减少领域的一项基础性工作。
A stochastic gradient method with an exponential convergence rate for strongly convex objectives, Nicolas Le Roux, Mark Schmidt, Francis Bach, 2012 Advances in Neural Information Processing Systems, Vol. 25 (Neural Information Processing Systems Foundation) DOI: 10.5555/2999335.2999468 - 提出了随机平均梯度（SAG）方法，这是一种开创性的方差减少技术，可为强凸问题实现线性收敛速度。
Optimization Methods for Large-Scale Machine Learning, Léon Bottou, Frank E. Curtis, Jorge Nocedal, 2018 SIAM Review, Vol. 60 (Society for Industrial and Applied Mathematics) DOI: 10.1137/16M1080173 - 一份关于大规模机器学习优化算法的综合性综述，涵盖了SGD的理论性质和各种方差减少方法。

© 2025 ApX Machine Learning用心打造