Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 提供深度学习的全面学术概述,包括对内部协变量偏移及其对优化影响的详细解释。
How Does Batch Normalization Help Optimization?, Shibani Santurkar, Dimitris Tsipras, Andrew Ilyas, Aleksander Madry, 2018Advances in Neural Information Processing Systems, Vol. 31 (Neural Information Processing Systems Foundation, Inc. (NeurIPS))DOI: 10.55917/fu.2018.528 - 研究了批量归一化有效性的潜在原因,表明它主要通过使损失地形更平滑来辅助优化,而不仅仅是减少内部协变量偏移。