Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems (NeurIPS)DOI: 10.48550/arXiv.1706.03762 - 介绍Transformer架构和自注意力机制的基础论文,提供了Query、Key和Value相互作用及其在注意力分数计算中作用的原始描述。
The Annotated Transformer, Alexander Rush, 2018 - 一个广受认可的交互式指南,通过在PyTorch中实现Transformer架构来解释其工作原理,对Query、Key和Value注意力机制及其分数计算提供了清晰的解释。
Transformer Models: An Introduction, Llion Jones, Ashish Vaswani, Noam Shazeer, Jakob Uszkoreit, and Illia Polosukhin, 2023 (O'Reilly Media) - 由部分Transformer模型原作者撰写的权威书籍,对Transformer模型,包括注意力机制及其评分过程,提供了全面且更新的介绍。