趋近智
监督学习(SL)阶段是宪法AI的初始训练环节,其中设计有效章程的准则得到实际应用。此阶段通过运用AI本身生成期望行为的实例,从而将章程付诸实践,为微调语言模型以达成对齐提供数据集,在任何强化学习步骤之前完成此项工作。
这里的中心目标是将章程的抽象规则转化为具体的训练信号。CAI不再仅仅依靠人工标注者来标记偏好输出,而是使用AI系统,依据所提供的章程准则,批评并修改模型自身的回复。这个过程构成了一种可扩展的机制,用于生成对齐数据。
这个SL阶段通常分为两个主要步骤,并常以迭代方式执行:
让我们详细分析每个步骤。
这一过程始于提示初始的、预先对齐的大语言模型(LLM)为一个给定输入提示生成回复。这个初始回复可能有所助益,但可能违反章程中列出的一项或多项准则(例如,规避回答、生成有害内容、表达不当偏见)。
批评生成后,下一步是修改初始回复以处理已辨识的问题。
这种批评与修改循环的优势在于它能够自动生成用于监督微调(SFT)的训练数据。每次循环会得到一个配对:初始提示和修改后的、与章程对齐的回复。
通过在多样化的提示集上生成许多此类配对,可以构建一个可观的数据集。该数据集以输入-输出实例的形式体现了章程准则。原始LLM随后会基于此数据集进行微调。SFT的目标是教导模型在收到相应提示时,直接产生与修改后输出类似的回复,从而有效地将批评与修改过程中展现的章程限制内化。
CAI监督学习阶段的流程。初始回复会依据章程进行批评,然后根据批评进行修改,从而生成用于监督微调的训练配对。
这种由明确章程引导的自我修正机制,使得对齐过程的规模化能够超越单靠人工标注所能实现的范围。在这些AI生成数据上微调得到的模型,为构建更符合章程的系统提供了重要依据,并可能已为通过RLAIF等强化学习技术进行进一步完善做好准备,我们将在后续章节讨论这些技术。这个阶段的质量在很大程度上取决于章程的清晰度,以及用于有效引导批评和修改模型的提示策略的成熟程度。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造