趋近智
宪法AI(CAI)反馈流程的规范化表述侧重于其监督学习 (supervised learning)(SL)阶段。此阶段旨在通过教导LLM模仿其自身输出的章程化修订版本,从而改进LLM的表现。这些修订版本是通过AI驱动的批改和修订循环生成的。
令表示以为参数 (parameter)的基础大型语言模型。给定一个输入提示,模型生成一个初始回应: 此表示法说明,是从模型根据输入定义的序列的概率分布中取样得到的。
CAI SL阶段的核心在于根据预定义的章程生成一个更理想的回应。这通常分两步完成:
批改生成: 一个AI系统(通常是同一个LLM 被恰当提示,或是一个专门的批改模型)在提示和章程的背景下分析初始回应。它识别中可能违反中原则的方面,并生成批改。我们可以用函数形式表示此流程: 此批改可能是对缺陷的文字说明,或是一条具体的改进指令。
修订生成: 另一个AI系统(可能是再次使用,或是一个专门的修订模型)将原始提示、初始回应、批改和章程作为输入。然后它生成一个修订后的回应,此回应既处理了批改,又符合。 类似于初始回应生成,批改和修订步骤可以从概率角度看待,涉及从以各自输入为条件的分布中取样。
下图呈现了针对单个训练实例的数据生成流程:
宪法AI中生成单个监督微调 (fine-tuning)示例的数据流程。该流程使用基于章程的AI生成批改和修订,以优化LLM的初始回应。
整个流程对大量多样化提示数据集\ {x_i\}重复进行,以生成一个符合章程的输入-输出对数据集:
CAI SL阶段的主要目的是使用此数据集训练一个新模型(通常从初始化)。训练目标通常是标准监督微调(SFT),即最小化给定提示下修订回应的负对数似然: 这里,表示正在微调模型的参数。通过最小化此损失,模型学习直接生成类似于修订后、符合章程的回应,在推理 (inference)时无需显式批改和修订步骤。
需认识到,此表述简化了一个潜在的复杂流程。批改和修订步骤本身可能涉及多次LLM调用、特定提示策略以及采样程序(例如,使用温度缩放),以生成多样且有效的反馈。
此外,虽然此阶段的主要输出是用于SFT的数据集,但生成的数据有时可以被重新利用。例如,对于给定的提示,对隐式定义了一种偏好:根据章程,优于。此偏好数据可能用于训练奖励模型,以供后续强化学习 (reinforcement learning)阶段使用(如在RLAIF中考察的那样,本课程后续讨论),尽管原始CAI框架侧重于使用修订后输出的直接SFT步骤。
这种数学框架强调了CAI如何将高层原则(章程)转化为适合标准机器学习 (machine learning)优化技术()的具体训练数据(),从而引导LLM的表现,而无需对每个具体交互进行人工标注。其有效性取决于章程的质量以及AI系统根据其生成有意义批改和修订的能力。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•