所有课程

机器学习高级优化技术

章节 1: 机器学习优化的根本原则

重温梯度下降变体

凸性的作用

理解损失曲面

收敛性分析基本原理

非凸优化中的挑战

数值稳定性考量

实践：分析收敛行为

章节 2: 二阶优化方法

牛顿法：理论与推导

海森矩阵：计算与性质

牛顿法的难点

拟牛顿法：近似Hessian矩阵

BFGS算法详解

有限内存BFGS (L-BFGS)

信赖域方法

动手实践：L-BFGS 的实现

章节 3: 自适应学习率算法

固定学习率的局限性

AdaGrad：根据过往梯度调整学习率

RMSprop：处理AdaGrad学习率递减的问题

Adam：结合动量与RMSprop

Adamax 和 Nadam 变体

AMSGrad：提升 Adam 的收敛性

了解学习率调整策略

实践操作：比较自适应优化器

章节 4: 大规模数据集的优化

随机梯度下降再讨论：方差减小

随机平均梯度 (SAG)

随机方差缩减梯度 (SVRG)

小批量梯度下降的权衡

异步随机梯度下降

数据并行策略

SVRG 的动手实现

章节 5: 分布式优化策略

分布式训练的动机

参数服务器架构

同步更新与异步更新

通信瓶颈与应对策略

All-Reduce 算法

联邦学习优化原理

实践操作：模拟分布式SGD

章节 6: 深度学习中的优化难题

深度学习损失曲面的特点

网络架构对优化的影响

规范化方法与优化

梯度裁剪与梯度爆炸/消失

初始化方法及其影响

正则化方法：优化过程的隐性作用

实践：深度网络优化器调优

章节 7: 高级与专项优化专题

受限优化基本原理

拉格朗日对偶性与KKT条件

投影梯度方法

无导数优化概述

贝叶斯优化用于超参数调优

强化学习策略的优化

实践：实现投影梯度下降

深度学习损失曲面的特点

这部分内容有帮助吗？

参考文献

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima, Nitish Shirish Keskar, Dheevatsa Mudigere, Jorge Nocedal, Mikhail Smelyanskiy, and Ping Tak Peter Tang, 2016 ICLR 2017 DOI: 10.48550/arXiv.1609.04836 - 这篇论文审视了批次大小、优化器找到的最小值锐度与深度学习模型泛化性能之间的关系。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 这本权威教材的第八章全面概述了优化挑战，包括深度学习中损失函数地形的特点。
Visualizing the Loss Landscape of Neural Networks, Hao Li, Zheng Xu, Gavin Taylor, Christoph Studer, Tom Goldstein, 2018 Advances in Neural Information Processing Systems, Vol. 31 (Neural Information Processing Systems Foundation) DOI: 10.48550/arXiv.1712.09913 - 这篇论文介绍了有效可视化神经网络高维损失函数地形的方法，有助于阐明尖锐和扁平最小值等概念。
Optimization Methods for Large-Scale Machine Learning, Léon Bottou, Frank E. Curtis, and Jorge Nocedal, 2018 SIAM Review, Vol. 60 (Society for Industrial and Applied Mathematics) DOI: 10.1137/16M1080173 - 这篇综述文章考察了广泛的优化方法，讨论了它们在大规模机器学习中的适用性和挑战，特别关注了深度学习的非凸性和高维度。

© 2025 ApX Machine Learning用心打造