实行宪法式AI(CAI)和基于AI反馈的强化学习(RLAIF)等先进对齐技术,相比标准监督微调(SFT)或按每次更新计算的基础模型预训练,其计算需求显著增加。了解这些成本的来源和规模,是进行对齐项目规划、预算及优化的必要条件。这里分析了CAI和RLAIF的计算要求,并找出主要瓶颈。
分析宪法式AI(CAI)成本
CAI的计算成本主要源于其两阶段结构:监督学习(SL)数据生成阶段和随后的微调阶段。
-
监督数据生成阶段(批改与修订):这通常是CAI中计算最密集的部分。对于初始数据集中的每个提示,该过程通常涉及:
- 初始回应生成:使用基础LLM(Mbase)进行推理,生成初始回应(r0)。成本随序列长度和Mbase大小而变化。
- 批改生成:使用批改模型(Mcritique)(通常是另一个有能力的LLM)进行推理,根据宪法、原始提示(p)和初始回应(r0)进行提示,以识别违规行为。成本随总输入长度和Mcritique大小而变化。
- 修订生成:使用修订模型(Mrevise)(可能与Mbase或Mcritique相同,但经过专门提示)进行推理,将p、r0和批改作为输入,以生成修订后的回应(r1)。成本随输入长度和Mrevise大小而变化。
- (可选)迭代细化:一些CAI实现会执行多轮批改和修订,从而相应地增加推理成本。
生成SL数据集的总推理成本大约为:
成本CAI_推理≈N提示×(成本推理(Mbase)+成本推理(Mcritique)+成本推理(Mrevise))×N迭代
其中N提示是初始提示的数量,N迭代是每个提示的批改/修订轮次。由于Mcritique和Mrevise本身通常是大型LLM,此阶段涉及对每个数据点进行多次昂贵的LLM推理调用。
-
监督微调(SFT)阶段:一旦(提示,修订后回应)对的数据集生成,基础LLM(Mbase)将在此数据上进行微调。
- 训练成本:这涉及标准SFT过程。成本取决于生成数据集的大小、Mbase的大小、微调持续时间(周期)以及训练超参数(批次大小、学习率)。尽管是标准SFT,但源自批改/修订阶段的数据集规模可能非常大,从而导致高昂的训练成本。
CAI中的瓶颈:
- 推理成本:批改和修订阶段重复的LLM推理调用是一个主要瓶颈,特别是当使用大型模型进行批改/修订并执行多轮迭代时。
- 数据集大小:生成大型、高质量的SL数据集需要推理阶段大量的预先计算投入。
- SFT成本:在可能庞大的生成数据集上微调大型基础模型需要大量的训练资源(GPU时间、内存)。
分析基于AI反馈的强化学习(RLAIF)成本
RLAIF用AI驱动的组件替代了人类偏好标注以及RLHF中可能有的SFT阶段,带来了其特有的成本结构。
-
AI偏好数据生成:与RLHF相似,RLAIF需要偏好数据,但这些数据由AI模型生成。
- 回应对生成:对于每个提示(p),使用当前策略模型(初始为Mbase,后续为迭代更新后的模型)生成多个回应(例如rA,rB)。这需要每个提示进行k次推理,其中k是为比较而生成的回应数量(例如成对比较时k=2)。
- AI偏好标注:使用AI偏好标注模型(Mpref_labeler)(通常是根据宪法提示的LLM)进行推理,根据期望标准(例如宪法定义的有益性、无害性)比较生成的回应(rA,rB),并输出偏好标签(例如rA≻rB)。成本随输入长度(提示+两个回应)和Mpref_labeler大小而变化。
成本大致为:
成本RLAIF_偏好生成≈N提示×(k×成本推理(Mpolicy)+成本推理(Mpref_labeler))
-
偏好模型(PM)训练:训练一个单独的奖励模型(MRM)来预测AI生成的偏好标签。
- 训练成本:取决于偏好数据集的大小、MRM选择的架构(通常小于主LLM,但仍可能很大)以及训练超参数。此成本类似于RLHF中训练奖励模型的成本。
-
强化学习(RL)微调:此阶段使用训练好的偏好模型(MRM)作为奖励函数,通过PPO等RL算法微调策略LLM(Mpolicy)。这通常是复杂度最高且资源消耗最大的阶段。对于每个PPO步骤:
- 策略运行:从当前策略Mpolicy为一批提示生成回应(推理成本)。
- 奖励计算:使用MRM计算每个生成回应的奖励(推理成本)。
- PPO更新:对策略模型(Mpolicy)和可能的值模型(Mvalue)执行多次前向和反向传播,以计算策略梯度并更新策略权重(训练成本)。PPO通常涉及每批收集数据进行多个优化周期。
RL阶段涉及推理(策略模型和奖励模型)和训练(策略模型和值模型更新)的紧密循环,这使得它在时间和内存方面都具有高计算要求,特别是需要大量GPU内存来存储多个模型副本和激活。
RLAIF中的瓶颈:
- RL训练循环:PPO循环因结合了多个模型(策略、RM)的重复推理以及可能在大型LLM上进行的复杂梯度计算而以资源密集著称。同时存储多个模型的激活、梯度和优化器状态需要大量的GPU内存。
- AI偏好标注推理:与CAI的批改阶段类似,使用大型LLM作为Mpref_labeler会产生高昂的推理成本,用于生成偏好数据集。
- 偏好模型训练:尽管通常小于策略LLM,训练一个高质量的MRM仍需要大量的计算资源。
比较概述与主要因素
CAI和RLAIF都比简单的SFT带来了显著的计算开销,主要因为额外增加了LLM推理步骤来生成反馈(CAI中的批改/修订,RLAIF中的偏好标签),以及大规模SFT(CAI)或RL训练(RLAIF)所增加的复杂性。
CAI和RLAIF的计算成本相对细分。CAI的成本主要由反馈生成(推理)和随后的SFT主导。RLAIF涉及反馈生成推理和PM训练,但最大的组成部分通常是基于PPO的RL训练循环。实际成本根据实施选择有很大差异。
几个因素严重影响总计算成本:
- 模型大小:基础LLM、批改/修订模型(CAI)、偏好标注器/奖励模型(RLAIF)以及策略模型的参数数量直接影响推理和训练成本。更大的模型需要更多浮点运算和内存。
- 数据集规模:初始提示数量、生成的批改/修订对(CAI)或偏好对(RLAIF)的数量直接影响各自计算阶段的规模。
- 批次大小和训练步数:标准训练参数显著影响SFT(CAI)、PM训练(RLAIF),尤其是PPO循环(RLAIF)。更大的批次需要更多内存,而更多的训练步数会增加总计算量。
- RL算法复杂度:PPO本身具有影响每次迭代成本的超参数(例如每次部署的优化周期数)。
- 硬件:加速器(GPU/TPU)的类型和数量决定了实际运行时间和可行性。内存容量通常是一个关键限制,特别是在RL微调期间。
有效管理这些成本需要仔细考虑模型选择、数据生成策略以及训练循环的优化方法,我们将在后续章节中探讨。规划计算预算需要根据对齐任务预期的具体模型和数据集大小,对这些组成部分进行实际评估。