趋近智
宪法AI(CAI)反馈流程的规范化表述侧重于其监督学习(SL)阶段。此阶段旨在通过教导LLM模仿其自身输出的章程化修订版本,从而改进LLM的表现。这些修订版本是通过AI驱动的批改和修订循环生成的。
令Mθ表示以θ为参数的基础大型语言模型。给定一个输入提示x,模型生成一个初始回应yinit: yinit∼P(y∣x;θ) 此表示法说明,yinit是从模型Mθ根据输入x定义的序列y的概率分布中取样得到的。
CAI SL阶段的核心在于根据预定义的章程C生成一个更理想的回应yrevised。这通常分两步完成:
批改生成: 一个AI系统(通常是同一个LLM Mθ被恰当提示,或是一个专门的批改模型Mcritique)在提示x和章程C的背景下分析初始回应yinit。它识别yinit中可能违反C中原则的方面,并生成批改c。我们可以用函数形式表示此流程: c=批改(x,yinit,C) 此批改可能是对缺陷的文字说明,或是一条具体的改进指令。
修订生成: 另一个AI系统(可能是再次使用Mθ,或是一个专门的修订模型Mrevise)将原始提示x、初始回应yinit、批改c和章程C作为输入。然后它生成一个修订后的回应yrevised,此回应既处理了批改,又符合C。 yrevised=修订(x,yinit,c,C) 类似于初始回应生成,批改和修订步骤可以从概率角度看待,涉及从以各自输入为条件的分布中取样。
下图呈现了针对单个训练实例的数据生成流程:
宪法AI中生成单个监督微调示例的数据流程。该流程使用基于章程的AI生成批改和修订,以优化LLM的初始回应。
整个流程对大量多样化提示数据集\ {x_i\}重复进行,以生成一个符合章程的输入-输出对数据集: DCAI={(xi,yrevised,i)}i=1N
CAI SL阶段的主要目的是使用此数据集DCAI训练一个新模型Maligned(通常从Mθ初始化)。训练目标通常是标准监督微调(SFT),即最小化给定提示下修订回应的负对数似然: LSFT(θaligned)=−N1∑i=1NlogP(yrevised,i∣xi;θaligned) 这里,θaligned表示正在微调模型的参数。通过最小化此损失,模型Maligned学习直接生成类似于修订后、符合章程的回应,在推理时无需显式批改和修订步骤。
需认识到,此表述简化了一个潜在的复杂流程。批改和修订步骤本身可能涉及多次LLM调用、特定提示策略以及采样程序(例如,使用温度缩放),以生成多样且有效的反馈。
此外,虽然此阶段的主要输出是用于SFT的数据集DCAI,但生成的数据有时可以被重新利用。例如,对于给定的提示xi,对(yrevised,i,yinit,i)隐式定义了一种偏好:根据章程,yrevised优于yinit。此偏好数据可能用于训练奖励模型,以供后续强化学习阶段使用(如在RLAIF中考察的那样,本课程后续讨论),尽管原始CAI框架侧重于使用修订后输出的直接SFT步骤。
这种数学框架强调了CAI如何将高层原则(章程)转化为适合标准机器学习优化技术(LSFT)的具体训练数据(DCAI),从而引导LLM的表现,而无需对每个具体交互进行人工标注。其有效性取决于章程的质量以及AI系统根据其生成有意义批改和修订的能力。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造