趋近智
大型语言模型的训练通常需要精心收集、清洗和准备的数PB文本数据。然而,如果不加结构地将所有这些数据投入训练过程,不太可能得到最佳结果。预训练 (pre-training)所用的具体数据源组合,通常被称为数据配比,显著影响模型的各项能力、所涵盖的知识范围,甚至其固有的偏见。这不仅仅是数据的总量;来自不同来源的比例影响深远。
可以将预训练数据集视为模型的初级教育。就像人类的能力由学习经历塑造一样,大语言模型 (LLM)的能力由其所用数据塑造。一个主要在网络文本(如Common Crawl)上训练的模型将建立强大的通用语言理解能力和广泛的知识,但在专业方面可能缺乏有深度技能。反之,一个主要在源代码上训练的模型将擅长编程任务,但可能难以处理散文或会话互动。
不同数据源培养不同的技能:
配比决定了这些技能的平衡。例如,增加训练配比中的代码比例,可能提升模型在编码基准测试上的表现,但如果数据总量不变或代码数据替代了高质量散文,这可能会导致纯语言任务上的表现略有下降。
设想一个万亿级token预训练 (pre-training)运行的两种可能配比:
模型A可能更好地进行通用对话并拥有更广泛的知识。模型B在生成和理解代码方面几乎肯定更强,但与模型A相比,在创意写作或新闻文章总结方面可能不太擅长。
两种数据配比的比较,强调通用知识(A)与编码能力(B)的异同。
数据配比也是引入或减少社会偏见的主要途径。如果训练数据主要反映特定群体的观点、人口特征或语言模式,产生的模型很可能继承这些特点。例如,一个严重偏向西方文化的文本数据集可能会产生一个难以理解或生成反映其他文化背景的文本的模型。同样,如果某些数据源(如未过滤的网络文本)中存在有害或有毒语言,模型可能学会复制它。
因此,精心策划和组成数据配比是负责任AI发展的重要部分。这不仅包括选择多样化的数据源,还要考虑过滤策略(第7章有所涉及),并可能调整配比,以降低已知含有较多问题内容的数据源的权重 (weight)。
设计数据配比需要权衡构建一个能力广泛的通用模型与一个高度专业的专家模型。
理想的配比通常取决于大语言模型 (LLM)的预期应用。旨在广泛应用的基座模型(如 GPT-3/4、Llama、Claude)通常使用高度多样化的配比,而专为特定行业设计的模型可能会采用更有针对性的构成。像“The Pile”这样的数据集明确以多样性为目标构建,结合了许多不同的文本源,以鼓励通用化。
了解数据配比的深远影响是在训练期间策略性地选择数据的第一步。它允许您有意识地塑造模型的能力特征,平衡知识的广度与深度、专业技能,并减少潜在偏见,最终形成一个更有效、更可靠的大语言模型。以下章节将详细介绍实施这些采样策略的具体方法。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造