趋近智
评估经过RLHF微调的模型,需要关注传统NLP指标以外的方面。虽然困惑度(perplexity)、BLEU或ROUGE等指标可以衡量流畅性或语义相似度,但在衡量与有益性、诚实性和无害性相关的复杂人类偏好对齐方面存在不足。评估一个经过RLHF微调的模型,需要一套为这些对齐目标定制的专门指标。
正如章节引言中所述,实现对齐意味着确保模型的行为符合人类意图和价值观。标准指标无法衡量一个回应,即使它流畅且相关,是否实际有益、真实或安全。因此,我们需要专门设计用来检验这些方面的指标。
考虑一个旨在提供帮助而微调的模型。一个回应可能通过包含相似关键词而在与参考答案对比时获得高ROUGE分数,但却未能提供可操作的建议或误解了用户的根本需求。同样,困惑度衡量语言模型概率分布下的流畅性,但不评估事实准确性或安全性。当目标是对齐时,仅仅依赖这些指标可能会产生误导。
一个广泛采用的LLM对齐评估框架以三个支柱为核心:有益性、诚实性和无害性 (HHH)。指标通常被开发出来以针对这些方面中的一个或多个。
有益性是指模型在帮助用户达成目标、准确完整地回答问题以及提供有用信息方面的表现。
诚实性涉及模型提供事实准确的信息、避免编造(“幻觉”)、在适当时候承认不确定性,并在适用时引用来源。
TruthfulQA,旨在衡量模型是否避免生成模仿常见人类误解的错误陈述。性能通常通过真实回答问题的百分比来衡量,通常区分生成真实陈述和在多项选择环境中正确识别真实陈述。无害性侧重于模型避免生成有害、有偏见、歧视性、不安全或不道德内容的倾向。
ToxiGen等数据集上训练的专门模型)来评估模型输出的毒性水平。指标通常包括平均毒性分数或超过特定阈值被标记为有毒的输出百分比。QA偏见基准 (BBQ)这样的基准,或分析不同人口群体之间的性能差异(例如使用Winogender模式),以量化模型输出中反映的社会偏见。此图示意了HHH对齐支柱与用于评估它们的指标类型之间的关系。
尽管并非真实对齐的直接衡量,但在RLHF过程中生成的另外两个量也提供有用信息:
奖励模型分数: 如前所述,评估期间奖励模型(RM)分配给策略模型输出的平均分数,提供了关于策略如何优化所学偏好目标的视角。高RM分数表明策略的行为方式符合RM预测的人类偏好。在训练期间追踪这个分数非常重要,但由于策略利用RM漏洞(奖励作弊)的风险,应与其他指标一同解读。
KL散度: RLHF微调策略 (πRL) 与初始SFT策略 (πSFT) 之间的库尔巴克-莱布勒(KL)散度衡量了策略在RL微调期间的变化程度。它通常在PPO训练中用作惩罚项 (KL(πRL∣∣πSFT)),以阻止策略与SFT模型偏离过大,从而保持语言质量和通用能力。虽然主要是一个约束,但最终的KL散度值可以作为指标报告。极高的KL可能表明行为发生显著变化(可能有利于对齐,但对能力有风险),而极低的KL可能表明RL调优影响很小。解读KL散度需要了解训练设置和其他评估结果。
通常,单一指标不足以进行评估。评估对齐通常涉及一套涵盖HHH方面的指标,以及传统的能力基准测试。语言模型整体评估 (HELM) 框架或 EleutherAI语言模型评估工具 等工具提供了运行跨越许多指标和数据集的标准化评估的基础设施,从而提供模型性能和对齐的更完整视图。这些自动化工具将在后续章节中进一步讨论。
选择合适的指标集取决于您的模型的具体对齐目标,以及其部署场景相关的潜在风险。通常,自动化指标和人工评估的组合对于全面评估来说是必要的。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造