Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本涵盖深度学习基础概念的综合性教材,包括反向传播、梯度问题、激活函数和初始化技术。
On the difficulty of training Recurrent Neural Networks, Razvan Pascanu, Tomas Mikolov, Yoshua Bengio, 2013Proceedings of the 30th International Conference on Machine Learning, Vol. 28 (PMLR) - 这篇论文分析了深度网络中的梯度消失和梯度爆炸问题,并提出了梯度裁剪作为一种解决方案。
Mixed Precision Training, Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, Hao Wu, 2018International Conference on Learning Representations (ICLR)DOI: 10.48550/arXiv.1710.03740 - 这项开创性工作引入了深度神经网络的混合精度训练,详细介绍了利用损失缩放等技术高效使用FP16。
Layer Normalization, Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton, 2016arXiv preprint arXiv:1607.06450DOI: 10.48550/arXiv.1607.06450 - 引入了层归一化作为批归一化的替代方案,因其不依赖于批大小,对循环神经网络和Transformer尤其有效。