所有课程

机器学习高级优化技术

章节 1: 机器学习优化的根本原则

重温梯度下降变体

凸性的作用

理解损失曲面

收敛性分析基本原理

非凸优化中的挑战

数值稳定性考量

实践：分析收敛行为

章节 2: 二阶优化方法

牛顿法：理论与推导

海森矩阵：计算与性质

牛顿法的难点

拟牛顿法：近似Hessian矩阵

BFGS算法详解

有限内存BFGS (L-BFGS)

信赖域方法

动手实践：L-BFGS 的实现

章节 3: 自适应学习率算法

固定学习率的局限性

AdaGrad：根据过往梯度调整学习率

RMSprop：处理AdaGrad学习率递减的问题

Adam：结合动量与RMSprop

Adamax 和 Nadam 变体

AMSGrad：提升 Adam 的收敛性

了解学习率调整策略

实践操作：比较自适应优化器

章节 4: 大规模数据集的优化

随机梯度下降再讨论：方差减小

随机平均梯度 (SAG)

随机方差缩减梯度 (SVRG)

小批量梯度下降的权衡

异步随机梯度下降

数据并行策略

SVRG 的动手实现

章节 5: 分布式优化策略

分布式训练的动机

参数服务器架构

同步更新与异步更新

通信瓶颈与应对策略

All-Reduce 算法

联邦学习优化原理

实践操作：模拟分布式SGD

章节 6: 深度学习中的优化难题

深度学习损失曲面的特点

网络架构对优化的影响

规范化方法与优化

梯度裁剪与梯度爆炸/消失

初始化方法及其影响

正则化方法：优化过程的隐性作用

实践：深度网络优化器调优

章节 7: 高级与专项优化专题

受限优化基本原理

拉格朗日对偶性与KKT条件

投影梯度方法

无导数优化概述

贝叶斯优化用于超参数调优

强化学习策略的优化

实践：实现投影梯度下降

通信瓶颈与应对策略

这部分内容有帮助吗？

参考文献

Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training, Yujun Lin, Song Han, Huizi Mao, Yu Wang, William J. Dally, 2018 ICLR 2018 DOI: 10.48550/arXiv.1712.01887 - 这篇论文介绍了深度梯度压缩技术，结合了稀疏化、量化和梯度累积，以在不损失准确性的情况下显著减少分布式深度学习中的通信开销。
Horovod: Fast and Easy Distributed Deep Learning in TensorFlow, Alexander Sergeev, Mike Del Balso, 2018 arXiv preprint arXiv:1802.05799 DOI: 10.48550/arXiv.1802.05799 - 这篇论文介绍了Horovod，一个分布式训练框架，它采用优化的All-Reduce操作实现高效的梯度同步，为分布式深度学习提供了显著的加速和易用性。
Local SGD: Distributed SGD with Non-convex Optimization Guarantees, Sebastian U. Stich, 2018 Advances in Neural Information Processing Systems (NeurIPS), Vol. 31 (NeurIPS) DOI: 10.5591/978-1-57766-324-4.neurips2018.0 - 这篇论文为非凸优化中的本地SGD（周期性平均）提供了理论保障，证明了其在减少通信频率的同时保持收敛性能的有效性。
Dive into Deep Learning, Aston Zhang, Zack C. Lipton, Mu Li, Alex Smola, 2024 (Cambridge University Press) - 这本在线教材提供了关于分布式训练的详细章节，涵盖了同步和异步方法、通信模式以及提高效率的策略，提供了实践和理论基础。

© 2025 ApX Machine Learning用心打造