趋近智
大师班
在扩展Transformer模型时,一个自然而然的问题出现了:我们如何最佳地投入计算资源?我们应该优先增加层数、拓宽隐藏维度,还是在更多数据上训练?仅仅在没有明确策略的情况下增加参数可能导致收益递减或昂贵计算周期的低效利用。幸运的是,经验研究揭示了模型表现、模型大小、数据集大小以及训练中使用的计算量之间可预测的关系。这些关系通常被称为“缩放定律”。
理解这些缩放定律提供了一个有价值的框架,用于对模型架构和训练方案做出明智的决定。它们使我们能够估计扩大训练过程不同方面所带来的预期性能提升,并协助优化计算预算的分配。
开创性工作,值得注意的是OpenAI的Kaplan等人(2020),证明了语言模型的表现(通常通过在保留测试集上的交叉熵损失来衡量),随着我们扩展模型大小(非嵌入参数数量,N)、数据集大小(训练标记数量,D)和计算量(总浮点运算,FLOPs, C)而可预测地提高。
核心发现是,当其他因素不是瓶颈时,测试损失L通常与N、D和C遵循幂律关系。对于模型大小N和数据集大小D,这种关系通常可以建模为:
L(N,D)≈L∞+(NNc)αN+(DDc)αD其中:
这个公式表明,损失主要受对应于限制因素的项的影响:如果模型太小(N≪Nc),增加N会显著有益;如果数据集太小(D≪Dc),增加D更有益。
类似地,损失通常随计算预算C呈幂律关系:
L(C)≈L∞+(CCc)αC其中Cc和αC也是凭经验确定的常数。这些关系通常在几个数量级内成立,使其对推断有用。
一幅对数-对数图,展示测试损失如何随模型大小增加而降低,通常在几个数量级内遵循可预测的幂律。
对缩放定律理解的一项重要改进来自于DeepMind的Hoffmann等人(2022),被称为“Chinchilla”研究。他们进行了仔细的分析,以确定固定计算预算C在模型大小N和数据大小D之间的最佳分配。
训练密集型Transformer模型的计算量、模型大小和数据大小之间的近似关系通常估算为:
C≈6×N×D这表明计算成本大致与参数数量乘以处理的标记数量成正比。鉴于固定的计算预算C,Chinchilla研究建议,为了获得最佳表现(最低损失),N和D都应该大致按照计算预算的平方根比例进行缩放。也就是说,如果计算预算翻倍,您应该尝试将模型大小和数据集大小都增加大约2≈1.4倍。
这一发现很重要,因为它表明在这项研究之前训练的许多大型语言模型(如GPT-3或Gopher)相对于其训练数据可能“参数过多”了。对于所使用的计算预算,通过在更多数据上训练更小的模型,可能已经取得了更好的表现。Chinchilla模型本身,根据这些“计算最优”原则进行训练,以更少的参数但更多的训练数据,取得了比其一些大型同期模型更出色的成果。
让我们用一个简化的计算来说明。假设我们拟合了一个缩放定律,发现当N≈kC和D≈6NC≈6kCC=6kC(其中k为某个常数)时,会获得最佳表现。如果我们有一个计算预算C1并找到了最优的N1,D1,那么对于更大的预算C2=4C1,最优参数将近似为N2≈k4C1=2N1和D2≈6k4C1=2D1。我们将模型和数据都与C成比例地缩放。
这些缩放定律对构建大型模型的工程师有几点直接影响:
我们可以使用C≈6ND公式来估计训练的计算成本。例如,在1万亿个标记(D=1×1012)上训练一个70亿参数模型(N=7×109)大约需要:
import math
# 近似参数数量(不包括嵌入,简化)
N = 7e9
# 训练标记数量
D = 1e12
# 使用6ND规则估算的FLOPs
C_flops = 6 * N * D
# 将FLOPs转换为Petaflop-天 (1 Petaflop = 1e15 FLOP/s)
# 一天中的秒数 = 86400
petaflops = 1e15
seconds_per_day = 86400
C_petaflop_days = C_flops / (petaflops * seconds_per_day)
print(f"估算计算量: {C_flops:.2e} FLOPs")
print(f"估算计算量: {C_petaflop_days:.2f} Petaflop-天")
# 输出:
# Estimated Compute: 4.20e+22 FLOPs
# Estimated Compute: 486.11 Petaflop-days
这一计算凸显了所涉及的巨大计算规模。一个能够持续10 Petaflops的集群,进行这样的运行大约需要49天,这还不考虑开销和潜在的低效率。这强调了为何由缩放定律指导的有效资源分配如此重要。
尽管它们功能强大,但仍需记住这些缩放定律的背景:
总而言之,缩放定律提供了一个宝贵的定量视角,用于审视构建更大、更强大语言模型的过程。它们将缩放从猜测游戏转变为更可预测的工程学科,从而更有效地利用计算资源,并提供了一个评估该领域进展的框架。在接下来的章节中,当我们讨论具体的架构选择时,请记住这些缩放原则,因为它们经常是大型Transformer设计决策的依据。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造