所有课程

机器学习高级优化技术

章节 1: 机器学习优化的根本原则

重温梯度下降变体

凸性的作用

理解损失曲面

收敛性分析基本原理

非凸优化中的挑战

数值稳定性考量

实践：分析收敛行为

章节 2: 二阶优化方法

牛顿法：理论与推导

海森矩阵：计算与性质

牛顿法的难点

拟牛顿法：近似Hessian矩阵

BFGS算法详解

有限内存BFGS (L-BFGS)

信赖域方法

动手实践：L-BFGS 的实现

章节 3: 自适应学习率算法

固定学习率的局限性

AdaGrad：根据过往梯度调整学习率

RMSprop：处理AdaGrad学习率递减的问题

Adam：结合动量与RMSprop

Adamax 和 Nadam 变体

AMSGrad：提升 Adam 的收敛性

了解学习率调整策略

实践操作：比较自适应优化器

章节 4: 大规模数据集的优化

随机梯度下降再讨论：方差减小

随机平均梯度 (SAG)

随机方差缩减梯度 (SVRG)

小批量梯度下降的权衡

异步随机梯度下降

数据并行策略

SVRG 的动手实现

章节 5: 分布式优化策略

分布式训练的动机

参数服务器架构

同步更新与异步更新

通信瓶颈与应对策略

All-Reduce 算法

联邦学习优化原理

实践操作：模拟分布式SGD

章节 6: 深度学习中的优化难题

深度学习损失曲面的特点

网络架构对优化的影响

规范化方法与优化

梯度裁剪与梯度爆炸/消失

初始化方法及其影响

正则化方法：优化过程的隐性作用

实践：深度网络优化器调优

章节 7: 高级与专项优化专题

受限优化基本原理

拉格朗日对偶性与KKT条件

投影梯度方法

无导数优化概述

贝叶斯优化用于超参数调优

强化学习策略的优化

实践：实现投影梯度下降

规范化方法与优化

这部分内容有帮助吗？

参考文献

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, Sergey Ioffe, Christian Szegedy, 2015 Proceedings of the 32nd International Conference on Machine Learning (ICML), Vol. 37 (PMLR (Proceedings of Machine Learning Research)) DOI: 10.5555/3045118.3045167 - 介绍了批量归一化，一种减少内部协变量偏移并加速深度网络训练的技术。
Layer Normalization, Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton, 2016 arXiv preprint arXiv:1607.06450 DOI: 10.48550/arXiv.1607.06450 - 提出了层归一化，一种独立于批量大小的批量归一化替代方案。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 提供了深度学习基础的全面论述，涵盖优化挑战和归一化技术。
Group Normalization, Yuxin Wu, Kaiming He, 2019 International Journal of Computer Vision (IJCV), Vol. 128 (Springer US) DOI: 10.1007/s11263-019-01198-w - 提出了组归一化，作为批量大小较小时批量归化不可行情况下卷积神经网络的有效替代方案。

© 2025 ApX Machine Learning用心打造