Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems 30 (NIPS 2017)DOI: 10.48550/arXiv.1706.03762 - 这篇开创性论文提出了Transformer架构,通过引入自注意力机制,成为许多当前先进嵌入模型的核心组成部分。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本内容全面的教科书,涵盖了深度学习的理论基础和实践方面,包括神经网络如何学习有意义的数据表示(嵌入)。