趋近智
现代大语言模型 (LLM)所具有的强大能力与其规模紧密关联。理解模型性能如何与模型大小、数据量和计算量联系,是应对效率难题的根本。这种关系常通过经验性观察来表示,即规模法则。
大语言模型 (LLM)性能(通常通过在独立数据集上的交叉熵损失衡量)与三个主要因素常呈幂律关系。这种关系常由被称为缩放定律的经验性观察所体现,其基础工作由Kaplan等人于2020年首次系统性地确立,并经Hoffmann等人于2022年进一步完善。
核心发现是,在非瓶颈情况下,测试损失与、和呈幂律关系。例如,当计算资源和数据充足时,损失常随模型大小按以下方式变化:
这里,和是特定于模型架构和训练设置的常数。类似的幂律关系也存在于和。这些关系表明,增加模型大小、数据量或计算量会带来递减但可预测的性能提升(损失降低)。
在对数-对数坐标系下,测试损失与模型参数/计算量之间的示意性幂律关系。图表显示出类似趋势,尽管噪声和特定的架构选择可能导致偏差。
一项重要的改进随之而来,即“Chinchilla”规模法则(Hoffmann等人,2022)。之前的工作常在相对较小的数据集上训练大型模型(相较于模型大小)。Chinchilla论文表明,在给定计算预算下,最优分配涉及大致按比例增大模型大小和数据集大小。具体而言,他们发现,在固定FLOP预算下达到最佳性能,模型应该用比以往普遍认为的更多的令牌进行训练。一个在1.4万亿令牌上训练的700亿参数 (parameter)Chinchilla模型,在多项基准测试中表现优于大得多的1750亿参数GPT-3(在3000亿令牌上训练)和5300亿参数Gopher(同样在3000亿令牌上训练)。
这表明,在给定计算预算下获得最佳性能,需要平衡增加模型参数和训练数据,而不是只优先考虑模型大小。最优比率表明,这意味着计算预算大约是参数量和已处理令牌数量乘积的六倍。
理解规模法则需要量化所涉及的计算成本。
训练成本: 训练大语言模型 (LLM)的计算成本极高。主要成本是前向和反向传播 (backpropagation)中涉及的巨大矩阵乘法次数。标准Transformer的训练FLOPs粗略估计为:
这里:
对于一个在3000亿令牌上训练的GPT-3模型(1750亿参数),这相当于大约 FLOPs。执行这些计算需要大规模高端加速器(GPU或TPU)集群运行数周或数月,产生高昂的硬件和能源成本。
推理 (inference)成本: 虽然低于训练成本,但推理成本也不容忽视,尤其是在大规模部署时。对于生成单个令牌,FLOPs大约为:
生成长度为的序列大约需要 FLOPs。然而,推理常受内存带宽的瓶颈限制,而不仅仅是原始计算量(FLOPs)。这是因为,对于每个生成的令牌,整个模型的参数(个参数,FP16/BF16精度下常需要字节)需要从内存(例如GPU HBM)中读取。所需时间常主要由这种内存访问决定,而非计算本身,尤其对于参数量达数十亿的大型模型。我们将在下一节更详细地分析这些瓶颈。
内存成本:
这些规模法则和相关成本直接促使了优化的必要性。通过剪枝或蒸馏等技术减小模型大小()直接降低计算和内存需求。量化减少了参数和激活值的内存占用,并能在专用硬件上实现更快的计算。高效微调 (fine-tuning)方法(PEFT)降低了适配大型预训练 (pre-training)模型的成本。硬件加速技术旨在提高这些高要求计算的每秒浮点运算次数(FLOPs/second)和内存带宽。理解这些基本的规模关系为评估本课程中将介绍的优化技术的有效性提供了量化依据。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造