趋近智
对大型语言模型 (LLM) 进行微调,使用专门数据作为监督学习阶段的核心训练步骤,尤其当这些数据包含符合宪法原则的修订时。目标是将修订响应中体现的宪法原则直接融入模型的参数中。此目的是生成一个模型 ,它能够在推理时无需明确调用批判和修订机制,便能生成符合宪法原则的输出。
这个过程将批判和修订阶段的复杂多步骤推理提炼到 LLM 的权重中。微调数据集由成对的 组成,这里 是原始提示,而 是 AI 生成的、符合宪法原则的修订响应,这组数据用作训练信号。
归根结底,这一步采用标准的监督微调 (SFT),这是一种使预训练模型适应特定下游任务或风格的常见技术。然而,CAI 生成数据的特性带来了一些特别的考虑。
输入与目标: 训练期间模型的输入是提示 。模型学习预测的目标是修订后的响应 。我们正在训练模型,使其能够直接将提示映射到满足数据生成阶段所用宪法约束的响应。
模型架构: 通常,微调过程从用于生成初始响应的相同基础模型 开始。这可确保模型保持其通用能力,同时根据 CAI 数据调整其行为。
损失函数: 采用标准的自回归语言模型损失,通常是交叉熵。损失是在模型对下一个词元的预测概率分布与目标序列 中实际的下一个词元之间计算的。
这里, 表示目标序列 中的第 个词元, 是输入提示, 是前面的目标词元, 表示正在优化的模型参数。
正确格式化数据对有效微调很重要。每个训练样本通常将提示和修订后的响应连接起来,常使用特殊词元来划分不同部分。
常见的格式可能如下所示:
<|system|> 你是一个符合宪法原则的有用助手。 <|user|> {提示文本} <|assistant|> {修订响应文本}<|endoftext|>
关键是,损失仅在与 {修订响应文本} 部分对应的词元上计算。提示词元以及任何前面的上下文或特殊词元在损失计算期间被屏蔽。这确保模型学习根据提示 生成 所需的响应,而不是学习预测提示本身。像 Hugging Face 的 transformers 等库提供了工具(例如,数据整理器 Data Collators)来自动处理这种屏蔽。
虽然标准的 SFT 实践适用,但考虑到 CAI 数据集可能的人工合成和目标导向特性,使用 CAI 数据进行微调需要仔细调整超参数:
持续评估微调进度:
SFT 的损失曲线。训练损失降低,而验证损失在第 7 步之后开始增加,这表明可能存在过拟合。
成功完成此微调过程将生成 CAI 对齐模型,表示为 。该模型已将 AI 批判和修订过程所理解的宪法原则整合到其生成行为中。与原始 相比,它现在应该能够以更符合指定宪法的方式响应提示。
这个 模型代表了宪法 AI 监督阶段的最高成果。它可以直接部署,接受进一步的严格评估(第七章),或者作为后续对齐阶段(例如,如我们将在第六章讨论的,基于 AI 反馈的强化学习 (RLAIF))的一个改进起点。这一微调步骤的质量对于 CAI 方法的整体成功非常重要。
这部分内容有帮助吗?
transformers库对语言模型进行监督微调的实践指南,涵盖数据准备和训练循环。© 2026 ApX Machine Learning用心打造