趋近智
大型语言模型预训练阶段的有效性主要取决于所用数据的特点。这不只是普通数据,而是具有足够规模和多样性的数据,使得这些模型能够形成其突出的能力。纯粹的数据量(通常表示为 Vdata)及其多样性对成功的基础模型训练是必不可少的。
在大型语言模型的发展中,一个持续观察到的现象是“缩放法则”所描述的。简单来说,这些经验性发现表明,模型的性能(通常通过其准确预测文本的能力衡量,例如测试集上更低的困惑度或损失)会随着三个主要因素的增加而可预测地提升:模型大小(参数数量)、训练所用的计算资源量,以及对我们讨论而言很重要的——训练数据集的大小。
对于预训练而言,这意味着让模型接触更大容量的文本 Vdata 通常会带来更好的结果。为何会如此?
这意味着很清楚:要构建有能力的基础模型,我们通常需要真正大规模的数据集,有时以数千亿甚至数万亿个token来衡量。
常见关系:随着训练数据量的增加,模型的测试损失通常会降低,表明性能有所提升。
尽管数据量是性能的主要驱动因素,但数据内部的多样性或差异性也同等重要,甚至更重要。由重复或非常狭窄内容组成的大规模数据集,将无法产出有能力且多功能的LLM。预训练数据的多样性体现在几个维度:
高数据多样性的好处是多方面的:
一个多样化的预训练语料库由多种来源构建,每种来源贡献不同类型的信息和风格。合成数据可以补充这些来源以增加多样性。
数据量和多样性并非独立;它们相互影响。一个真正大的数据集 Vdata,使得纳入大量多样化内容成为可能。许多有价值的数据类型,例如专业科学文本、特定编程语言或复杂的哲学讨论,相比于一般网页文本可能相对稀有。在较小的数据集中,这些“长尾”来源可能表示不足,难以对模型的学习产生有意义的影响。然而,在一个数万亿token的数据集中,即使是这些较稀有的数据类型也可以以足够大的量包含在内,从而有助于模型的知识和能力。
本质上,大数据量为容纳广泛的信息范围提供了“空间”。预训练目标,通常是下一token预测或掩码语言建模,在此基础上表现良好。模型通过识别这组文本中的模式,学习预测接下来是什么(或缺失什么)。它遇到的模式越多样,看到的每个模式的示例越多,其语言理解就越具适应性和普遍性。
这正是合成数据(本课程的重点)对预训练特别重要的原因。虽然理想情况是拥有丰富、高质量、多样化的数据,但这并非总能实现,原因在于:
合成数据生成技术通过以下方式提供了一种增强预训练语料库的途径:
理解基础模型训练中数据量和多样性的基本需求是第一步。它为理解经过深思熟虑生成的合成数据如何成为构建更强大、更全面的大型语言模型的有效工具奠定了基础,正如我们将在后续章节中涵盖的那样。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造