自动化指标虽然能提供关于模型表现的有益信息,但它们通常难以捕捉AI对齐的多方面特性。诸如有用性、无害性、诚实性以及整体对话质量等维度本身就带有主观性,最好通过人工判断来评估。在这点上,有结构的人工评估方法变得不可或缺。它们提供必要的定性与比较数据,以了解经过RLHF调整的模型是否真正按照期望的人类价值观和意图行事。
设计和执行这些评估需要仔细规划,要摆脱简单的准确率分数,转而对模型在真实情境中的行为进行详细评估。
人工评估方法类别
有几种常用方法用于收集对LLM表现的人工反馈,每种方法都有其优点和缺点。
成对比较
这可能是最常见的方法,类似于奖励建模的数据收集过程。评估者会看到相同的提示和两个不同的回复(例如,来自两个不同的模型,或同一模型的两个版本),并被要求根据具体标准选择哪个回复更好(例如,“哪个回复更有用?”)。
- 优点: 直接得到偏好,对评估者来说相对简单,作为Elo评分或Bradley-Terry模型对模型排序的依据。
- 缺点: 进行多项比较可能耗时,偏好可能很大程度上取决于细节,不能很好地体现偏好的 程度。
评分量表
评估者使用量表,通常是利克特量表(例如,1-5或1-7),根据预先定义的标准对单个回复进行评分。标准可能包括:
- 有用性: 回复在多大程度上满足了用户需求?
- 无害性: 回复是否避免了有毒、有偏见或不安全的内容?
- 诚实性/事实准确性: 所提供的信息是否准确?
- 流畅性/连贯性: 回复是否书写良好且易于理解?
有用性示例量表:
- 极无用
- 无用
- 略无用
- 中立 / 略有用
- 略有用
- 有用
- 极有用
- 优点: 捕捉不同维度上的质量程度,允许对具体属性进行详细评估。
- 缺点: 需要对量表点有非常清晰的定义,易受个体评估者校准差异的影响(一个人的“5”可能是另一个人的“6”)。
并列盲评
类似于成对比较,但评估者可能会并列看到模型A和模型B的回复,而不知道哪个模型生成了哪个回复。他们可以随后在量表上给两者评分,或选择偏好的那个。这有助于减轻因知道模型身份而产生的偏见。
- 优点: 减少实验者偏见,允许在相同提示下直接比较。
- 缺点: 需要仔细设置以确保盲评,分析方式可能类似于成对或评分量表,具体取决于任务。
自由形式反馈
评估者提供书面评论,解释他们的评分或偏好。这种定性数据对于了解回复为何好或坏极有价值。
- 优点: 捕捉量表/比较遗漏的细节,提供失败或成功的具体例子,有助于发现模型意外行为。
- 缺点: 难以量化和汇总,需要评估者投入更多精力,分析可能耗时。
设计高效方法
人工评估数据的质量取决于方法的設計。
定义清晰评估标准
模糊是弊病。标准必须精确且可操作地定义。不要只问“它好吗?”,而要使用具体问题,例如:
- “回复是否直接回答了提示中提出的问题?”(有用性)
- “回复是否包含任何贬低或仇恨言论?”(无害性)
- “回复是否提出了明显错误的说法?”(诚实性)
- “回复是否语法正确且结构合乎逻辑?”(流畅性)
为每个标准提供好回复和坏回复的例子,以帮助评估者理解。
制定评估者说明
说明应该清晰、全面且易于遵循。它们应包含:
- 评估目的。
- 所有标准和评分量表的详细定义。
- 如何处理边缘情况(例如,无意义的提示,拒绝回答)。
- 说明标准应用的例子。
- 用户界面的信息。
选择和培训评估者
评估者最好代表目标用户群体或具备相关专业知识。背景多样性有助于发现更广泛的潜在问题。持续培训很重要,以确保每个人对任务和标准的理解相似。这通常包括带有反馈的练习环节。
平台和界面
用于评估的工具应用户友好并减少操作阻碍。它需要:
- 清晰呈现提示和模型回复。
- 提供直观的方式输入评分、选择或评论。
- 随机化呈现顺序(例如,哪个模型的回复先出现),以避免排序偏见。
- 可靠地记录数据。
分析评估结果
收集到的数据需要仔细分析,以得到可采取行动的见解。
汇总得分和偏好
对于评分量表,计算每个标准的平均得分、置信区间和分布。对于成对比较,确定胜率。Elo分数等更精细的方法可以根据成对比较结果提供模型的相对排名。
200次成对比较的汇总结果,显示了评估者对两个模型的偏好。
衡量评估者间一致性 (IAA)
人工判断是主观的,因此衡量评估者之间的一致性很重要。一致性低可能表示说明模糊、标准定义不明确,或任务本身存在难度。常用指标包括:
- 百分比一致性: 最简单,但未考虑偶然一致性。
- Cohen's Kappa: 衡量两位评分者之间的一致性,纠正了偶然因素。
- Fleiss' Kappa: 将Cohen's Kappa推广到两位以上评分者。
低的Kappa分数(例如,低于0.4)通常需要重新审视评估指南或评估者培训。Kappa分数 κ 根据观察到的一致性 Po 和偶然预期的一致性 Pe 计算:
κ=1−PePo−Pe
定性分析
不要忽视自由形式的评论。对定性反馈进行主题分析可以表明:
- 模型经常犯的特定类型错误。
- 意外的积极行为。
- 评估标准可能不足的方面。
- 评估者之间分歧的原因。
挑战和注意事项
- 主观性和偏见: 评估者带有各自的背景和偏见。仔细的说明设计、多样化的评估者群体和盲评可以减轻但不能消除这一点。
- 成本和可扩展性: 相比自动化指标,人工评估昂贵且耗时。它通常在较小的数据子集上进行,或集中于特定现象。
- 一致性: 确保评估者在不同时间和不同提示下一致地应用标准是一个持续的挑战,需要清晰的指南和定期校准检查。
- 任务复杂性: 评估复杂推理、创造力或长文本生成需要更精细的方法以及可能更多专业评估者。
尽管存在这些挑战,但精心设计的人工评估方法对于真实评估和改进经过RLHF训练的大型语言模型的对齐效果非常重要。它们提供最终衡量对齐过程成功与否的真实数据。