趋近智
估算大型语言模型(LLM)的内存需求涉及多个因素。模型参数是此估算中的一个主要组成部分。此外,另一个主要因素是激活所消耗的内存。当LLM处理您的输入(例如一个问题)并生成输出(例如一个回答)时,它会逐层执行大量的计算。这些计算的中间结果被称为激活。
可以把它想象成在白板上解决一个复杂的数学问题。模型参数就像您永久写下的已学公式和常数。而激活就像您在逐步计算最终答案时,在工作区临时记下的数字和结果。正如您需要在白板上留出空间来放置这些临时笔记一样,GPU在工作时也需要内存(显存)来存储这些激活。
神经网络中的每一层都会接收输入(可以是原始输入,也可以是来自上一层的激活),使用其参数进行处理,并生成新的激活作为下一层的输出。这些激活必须保留在内存中,直到它们在该特定处理步骤(通常称为“前向传播”)的后续计算中不再被需要为止。
重要的是,激活所需的显存量不像模型参数那样是固定不变的。它是动态的,并且很大程度上取决于所执行任务的特点:
因此,在估算所需的总显存时,您需要同时考虑静态模型参数和动态激活。一个更完整(尽管仍是简化)的视图如下:
总显存≈参数内存+激活内存+软件开销
软件开销包含了操作系统、GPU驱动程序以及运行模型的特定人工智能框架(如PyTorch或TensorFlow)所占用的内存。
此细分图显示,总显存使用量包括模型参数、激活和软件开销所需的内存。相对大小仅供示意。
事先精确计算所需的激活内存可能很复杂,因为它取决于运行时因素。然而,了解它的存在非常重要。仅仅基于参数的经验法则提供了一个最低显存估算。您必须始终预留额外空间以容纳激活和开销,特别是如果您计划使用长上下文长度或批量处理输入。这说明了为什么一个理论上根据参数大小应该能适配的模型,在实际运行中仍然可能导致“内存不足”错误。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造