Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本基础教科书,涵盖优化算法,包括深度学习中批量梯度下降的理论基础和实际困难。
Neural Networks Part 3: Learning and Evaluation, Andrej Karpathy, Justin Johnson, and Fei-Fei Li, 2023 (Stanford University) - 斯坦福CS231n课程笔记提供了关于训练深度神经网络挑战的实用观察,包括批量梯度下降的计算需求和内存限制,以及损失表面的复杂性。
The Loss Landscape of Neural Networks, Anna Choromanska, Mikael Henaff, Michael Mathieu, Gerard Ben Arous, Yann LeCun, 2015Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics, Vol. 38 (PMLR) - 展示了对神经网络损失表面的理论和经验分析,表明在高维空间中,局部最小值通常与全局最小值相似,但鞍点是一个更重要的难题。