Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing SystemsDOI: 10.48550/arXiv.1706.03762 - 描述了Transformer架构,包括注意力机制以及在编码器和解码器中使用掩码来管理序列信息。
Preprocessing data, Hugging Face, 2024 - 提供了使用Hugging Face transformers 库为Transformer模型进行分词、填充和注意力掩码创建的实用指南。