趋近智
自动化指标虽能提供量化 (quantization)概览,但在衡量大型语言模型(LLM)在实际使用中最重要的定性表现方面,它们常常力有不逮。诸如帮助性、连贯性、创造力、安全性和指令遵循等品质,天生具有主观性,且依赖于具体情境。因此,结构化的人工评估变得非常必要。它为理解微调 (fine-tuning)模型从用户角度实际表现如何提供了必要支撑。设计并执行有效的人工评估,需要仔细的规划和标准化的规范。
第一步是明确界定您希望衡量什么。您是在评估客服机器人的帮助性,故事生成器的创造力,摘要的事实准确性,还是针对有害提示词 (prompt)的安全防护?您的具体目标决定了整个评估的设置。
请精确说明需要审查的能力。例如,与其模糊地测试“改进”,不如界定目标,例如“将财务报告摘要中的事实性幻觉 (hallucination)情况减少50%”或“在故障排除场景中,用户对帮助性的满意度在5分制上提高1分”。这种清晰性指导着提示词 (prompt)的选择和评分标准的制定。
评估中使用的提示词必须代表目标使用场景。一组好的提示词应覆盖:
避免使用微调 (fine-tuning)数据集中包含的提示词,以防评估记忆而非泛化能力。
使用您希望评估的模型,为选定的提示词 (prompt)生成回复。这通常包括您的微调 (fine-tuning)模型,并常会包含一个或多个基准模型(例如,预训练 (pre-training)的基础模型、微调模型的先前版本,甚至是竞争对手的模型)。
如果您想评估模型输出的一致性或多样性,可以考虑使用不同的采样参数 (parameter)(如温度)为每个提示词生成多个回复。然而,对于直接比较任务,通常每个模型只使用一个代表性输出(例如,贪婪解码或低温采样)。
主观性需要结构化。制定一个包含具体标准、并与您的评估目标直接关联的详细评分表。
将期望的品质分解为可衡量的组成部分。例如:
量表应与评估类型匹配:
提供具体示例,说明每个标准和量表点。展示在李克特量表上会获得“1”、“3”或“5”分的回复示例,或者说明为何某个回复应排在另一个之上。这一校准步骤对于保持一致性非常必要。
人工评估数据的质量取决于评分员。
选择适合任务的评分员:
制定全面、明确的指导。包括:
组织培训会议,让评分员在示例任务上进行练习并获得反馈。使用资格测试(评估评分员在预先标注的示例,有时称为“黄金标准”数据上的表现)来选择表现出理解和一致性的评分员。
收集可靠的数据需要冗余和一致性检查。
指派多位评分员(通常是3或5位)独立评估每个提示词 (prompt)-回复对。这使您能够识别异常值并衡量一致性。
评分员之间的一致性是衡量您的评估规范质量和清晰度的指标。低一致性表明存在问题,可能出在指令、评分表复杂性、评分量表模糊性或评分员培训不足。常见的IRR指标包括:
将多位标注者的评分汇总为每个项目的单个标签或分数。常用方法包括:
以下图表呈现了基于汇总的人工判断,在基础模型与微调 (fine-tuning)模型的并排比较中偏好评分的分布情况。
汇总的偏好评分显示,在大多数评估的提示词 (prompt)中,微调模型(评分4和5)比基础模型(评分1和2)更受偏好。评分3表示无差异或质量相当。
最后一步是从收集到的数据中得出有意义的结论。
不要只看总体分数。按以下方面分析表现细分:
使用统计测试(例如,t检验、Wilcoxon符号秩检验)来确定模型之间观察到的差异是否具有统计学意义,尤其是在样本量较小的情况下。
将人工评估结果与您的微调 (fine-tuning)目标和数据联系起来。微调是否成功地提升了目标能力?它是否引入了任何退步?定性反馈常能提供关于模型为何以特定方式表现的重要信息,指导后续开发。
“人工评估是资源密集型的,但能为微调 (fine-tuning)大型语言模型的实用性和安全性提供不可替代的洞察。通过建立严谨的规范,您可以生成可靠的数据,以指导模型开发并展现有意义的改进。”
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•