Layer Normalization, Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton, 2016arXiv preprint arXiv:1607.06450DOI: 10.48550/arXiv.1607.06450 - 提出了层归一化,作为批归一化的替代方案,它独立地对每个数据点的特征激活进行归一化,特别适用于循环神经网络和Transformer。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems, Vol. 30 (NeurIPS) - 介绍了Transformer架构的原始论文,它有效地将多头自注意力与残差连接和层归一化结合起来,构建了深层序列处理模型。