Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems (NeurIPS 2017), Vol. 30DOI: 10.48550/arXiv.1706.03762 - 这篇里程碑式的论文介绍了Transformer架构,该架构完全基于注意力机制(特别是自注意力),并已成为各种领域(包括多模态AI)中许多最先进模型的基础。