Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing SystemsDOI: 10.48550/arXiv.1706.03762 - 介绍Transformer架构的原始论文,其中包含位置前馈网络的详细设计。
Dive into Deep Learning, Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola, 2024 (Cambridge University Press) - 一本全面的开源教科书,为深度学习模型提供了阐述和代码示例,其中包含关于Transformer位置前馈网络的专门部分。