Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems (NeurIPS), Vol. 30 - 介绍Transformer架构的论文,文中提到其权重矩阵使用Glorot均匀初始化,与Transformer实现细节有关。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 一本全面的教材,涵盖深度学习的基本概念,包括各种权重初始化策略的详细理论和实践说明。