Numerical Optimization, Jorge Nocedal and Stephen J. Wright, 2006 (Springer) - 一本经典教科书,全面介绍了优化算法及其收敛性分析,涵盖梯度法、牛顿法和拟牛顿法。它详细阐述了不同的收敛速度及其基本条件。
Deep Learning, Ian Goodfellow and Yoshua Bengio and Aaron Courville, 2016 (MIT Press) - 这本基础书籍的第8章侧重于深度模型的优化,讨论了非凸性、鞍点带来的挑战,以及机器学习中SGD和Momentum等算法的实际应用和分析。
Stochastic Gradient Descent, Léon Bottou, Frank E. Curtis, Jorge Nocedal, 2018SIAM Review, Vol. 60 (Society for Industrial and Applied Mathematics)DOI: 10.1137/16M1080173 - 一篇关于随机梯度下降的全面综述文章,为其收敛特性、不同变体及其在大规模机器学习中的重要作用提供了详细的理论基础。