Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems (NeurIPS), Vol. 30DOI: 10.48550/arXiv.1706.03762 - 本文介绍了Transformer架构,该架构利用掩码技术(填充掩码、前瞻掩码)高效且正确地处理序列数据,这是JAX掩码的一个常见应用领域。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 第10章“序列建模:循环和递归网络”讨论了可变长度序列、填充以及处理这些差异的需求,为深度学习中为何使用掩码提供了理论背景。
Composable transformations of Python+NumPy programs, James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, and Qiao Zhang, 2018 - 本文概述了JAX的基本设计原则,包括其自动微分、编译(jit)和向量化方法,为掩码策略为何能在加速器上高效执行提供了背景。