Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 这本教科书详细解释了深度学习中的优化挑战,包括局部最小值、鞍点、狭长山谷中的慢收敛以及学习率的影响。
The Loss Surfaces of Multilayer Networks, Anna Choromanska, Mikael Henaff, Michael Mathieu, Gérard Ben Arous, Yann LeCun, 2015Proceedings of Machine Learning Research, Vol. 38 (PMLR) - 这篇论文从理论上探讨了深度神经网络损失曲面的几何特性,认为在高维空间中,大多数局部最小值在经验上是好的,主要挑战来自鞍点。