所有课程

机器学习高级优化技术

章节 1: 机器学习优化的根本原则

重温梯度下降变体

凸性的作用

理解损失曲面

收敛性分析基本原理

非凸优化中的挑战

数值稳定性考量

实践：分析收敛行为

章节 2: 二阶优化方法

牛顿法：理论与推导

海森矩阵：计算与性质

牛顿法的难点

拟牛顿法：近似Hessian矩阵

BFGS算法详解

有限内存BFGS (L-BFGS)

信赖域方法

动手实践：L-BFGS 的实现

章节 3: 自适应学习率算法

固定学习率的局限性

AdaGrad：根据过往梯度调整学习率

RMSprop：处理AdaGrad学习率递减的问题

Adam：结合动量与RMSprop

Adamax 和 Nadam 变体

AMSGrad：提升 Adam 的收敛性

了解学习率调整策略

实践操作：比较自适应优化器

章节 4: 大规模数据集的优化

随机梯度下降再讨论：方差减小

随机平均梯度 (SAG)

随机方差缩减梯度 (SVRG)

小批量梯度下降的权衡

异步随机梯度下降

数据并行策略

SVRG 的动手实现

章节 5: 分布式优化策略

分布式训练的动机

参数服务器架构

同步更新与异步更新

通信瓶颈与应对策略

All-Reduce 算法

联邦学习优化原理

实践操作：模拟分布式SGD

章节 6: 深度学习中的优化难题

深度学习损失曲面的特点

网络架构对优化的影响

规范化方法与优化

梯度裁剪与梯度爆炸/消失

初始化方法及其影响

正则化方法：优化过程的隐性作用

实践：深度网络优化器调优

章节 7: 高级与专项优化专题

受限优化基本原理

拉格朗日对偶性与KKT条件

投影梯度方法

无导数优化概述

贝叶斯优化用于超参数调优

强化学习策略的优化

实践：实现投影梯度下降

贝叶斯优化用于超参数调优

这部分内容有帮助吗？

参考文献

Practical Bayesian Optimization of Machine Learning Algorithms, Jasper Snoek, Hugo Larochelle, and Ryan P. Adams, 2012 Advances in Neural Information Processing Systems (NIPS 25), Vol. 4 (Curran Associates, Inc.) DOI: 10.48550/arXiv.1206.2944 - 一篇关于将贝叶斯优化应用于机器学习超参数调整的奠基性论文，使用高斯过程。
Gaussian Processes for Machine Learning, Carl Edward Rasmussen and Christopher K. I. Williams, 2006 (The MIT Press) - 一本关于高斯过程的权威教科书，对于全面了解高斯过程至关重要，高斯过程是许多贝叶斯优化代理模型的基础。
Taking the Human Out of the Loop: A Review of Bayesian Optimization, Bob Shahriari, Kevin Swersky, Ziyu Wang, Ryan P. Adams, and Nando de Freitas, 2016 Proceedings of the IEEE, Vol. 104 (IEEE) DOI: 10.1109/JPROC.2015.2494218 - 一篇全面的综述文章，概述了贝叶斯优化在各个领域的理论、应用和挑战。

© 2025 ApX Machine Learning用心打造