趋近智
在进入奖励建模之前,必须首先评估监督式微调(SFT)模型的质量和表现。SFT 模型是通过用精心准备的提示-响应对数据集对基础语言模型进行微调而开发的。这项评估是一个主要检查点:SFT 过程是否成功使模型适应训练数据中体现的期望风格、格式和指令遵循能力?表现不佳的 SFT 模型将为后续的强化学习阶段提供薄弱的支撑,可能阻碍整个对齐过程。
几点重要问题包括:
回答这些问题需要结合定量指标和定性人工评估。
就像标准机器学习实践中一样,评估应在 SFT 训练期间未使用的留出数据集(验证集或测试集)上进行。理想情况下,此数据集应包含代表你所微调的任务和风格的提示。使用训练集中的提示只会衡量记忆能力,而非泛化能力。
虽然自动化指标通常难以全面反映语言质量和对齐情况,但它们可以提供有用的信息,尤其是在识别训练问题方面。
困惑度是语言建模中的标准衡量指标,量化了概率模型预测样本的好坏程度。它的计算方式是评估数据集的平均负对数似然的指数,根据模型。数学上,对于一个词元序列 W=w1,w2,...,wN,困惑度(PPL)是:
PPL(W)=exp(−N1i=1∑Nlogp(wi∣w1,...,wi−1))较低的困惑度分数通常表示模型在预测评估集中的词元序列时更确信和准确。在 SFT 评估中,你通常计算留出数据集中提示-响应对的响应部分的困惑度。
尽管训练期间验证集上的困惑度下降表明模型正在学习数据分布,但这并非质量或指令遵循的直接衡量指标。模型可能通过生成与 SFT 数据统计特征相符的重复或通用文本来达到低困惑度,但未能生成有帮助或具体的响应。然而,验证困惑度显著高或持续增加通常是表明训练问题或严重过拟合的警示。
像 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 和 BLEU (Bilingual Evaluation Understudy) 这样的指标衡量生成的响应与一个或多个参考响应之间的重叠。
如果你的 SFT 任务涉及生成应与特定参考密切匹配的文本(例如,封闭式问答、特定格式任务),这些指标会很有用。然而,对于可能存在多个有效且不同的响应的开放式生成任务,ROUGE 和 BLEU 分数可能产生误导。高重叠度不一定意味着高质量,低重叠度也不一定意味着低质量。谨慎使用它们,主要作为基本检查或在预期有强烈参考重叠的任务中使用。
监测训练和验证损失曲线是基本操作。理想情况下,两种损失都应下降并趋于稳定。训练损失和验证损失之间存在大差距表明过拟合,即模型记住了训练数据但泛化能力不佳。验证损失中的尖峰或不稳定性可能指向超参数问题,例如学习率或批量大小。
典型的 SFT 损失曲线显示训练和验证损失都在下降,且差距较小,表明泛化能力良好。
一种日益常用的技术是使用另一个强大的大型语言模型(例如 GPT-4, Claude)作为自动化评估器。过程通常如下:
这种方法比人工评估提供更好的可扩展性,并且能够评估超出简单文本重叠的方面。然而,它依赖评估模型的自身能力和潜在偏见,结果有时可能不一致,或需要对评估器本身进行细致的提示工程。
尽管存在成本和可扩展性方面的挑战,直接人工评估仍是评估 SFT 所针对的大型语言模型行为方面的衡量标准。
这涉及人工评审员检查模型根据评估提示生成的一些输出样本。评审员会关注:
评审员通常提供书面反馈以及好的和坏的输出示例。
人工评估也可以结构化以得出定量分数:
清晰的标注指南和评分者培训对于确保人工评估结果的一致性和可靠性很重要。
使用留出评估数据集评估 SFT 模型的不同方法概述。
SFT 评估的目标不一定是通用基准测试上达到先进水平,而是确认是否为下一个 RLHF 阶段做好准备。关注以下几点:
最终,评估 SFT 模型是为了建立信心。一个表现良好的 SFT 模型,通过自动化指标和(理想情况下)人工评审的结合确认后,能为 PPO 微调阶段提供更强的起始策略。这使得强化学习过程能够更有效地专注于优化奖励模型捕捉到的人类偏好,而不是从头开始艰难学习基本的指令遵循或风格一致性。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造