Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 本书为深度学习提供了全面的理论和实践基础,涵盖了神经网络中参数的作用以及训练和推理的计算方面,这些对于理解内存消耗至关重要。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, Inc.)DOI: 10.5591/978-1-57766-302-3.375 - 这篇开创性的论文介绍了Transformer架构,该架构构成了大多数大型语言模型的基础。理解Transformer的结构有助于把握为什么这些模型拥有如此庞大的参数数量,进而导致高内存需求。
CUDA C++ Programming Guide, NVIDIA Corporation, Latest Edition (NVIDIA Corporation) - 提供了NVIDIA GPU架构的详细信息,包括设备内存(VRAM)的层次结构和特性,以及其在深度学习等应用中高性能计算的作用。
Scaling Laws for Neural Language Models, Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei, 2020arXiv preprint arXiv:2001.08361DOI: 10.48550/arXiv.2001.08361 - 这篇论文直接探讨了模型参数如何影响性能,以及因此而产生的有效LLM操作所需的计算和内存资源。