趋近智
评估大型语言模型的表现是一项重大挑战。ROUGE和BLEU等自动化指标提供了衡量文本相似度的可扩展方式,但它们通常无法全面反映模型表现的完整情况。这些分数可以告诉你模型输出是否使用了与参考文本相似的词语,但它们无法可靠地判断语义正确性、逻辑连贯性或事实准确性。例如,模型可能生成一个ROUGE分数很高但毫无意义或有微小差错的响应。这就是定性评估(常被称为人工参与评估)变得十分必要的原因。它提供了确定模型对其预期用途而言是否真正有用且安全所需的详细反馈。
考虑一个经过微调 (fine-tuning)的模型,其任务是总结医疗报告。自动化指标可能会偏爱一个重复原始报告中特定医学术语的摘要,即使它错误地表达了患者的诊断。人类评估员,尤其是领域专家,可以立即发现这个错误。人工评估是衡量以下质量的唯一可靠方法:
人工评估转向对输出质量进行更全面的评判。
需要一种结构化方法来使人工反馈保持一致且可操作。该过程包括明确评估标准、选择合适的评分量表以及选用适宜的评估方法。
第一步是创建一个详细的评估标准,明确什么构成一个“好的”响应。这些标准应根据模型的特定任务量身定制。对于客户服务聊天机器人,您的评估标准可能包括:
清晰、有记录的标准是可靠评估过程的根本所在。没有它们,反馈将变得主观且难以汇总。
进行人工评估有两种主要方法:直接评估和比较评估。
1. 直接评估
在此方法中,人工评估员根据预定义的评估标准评估单个模型的输出。评估员为每个标准打分,提供关于响应不同方面的详细反馈。此方法对于找出模型的具体弱点很有效。
显示直接评估工作流程的图表。人工评估员根据评估标准对单个模型的输出进行打分。
2. 比较评估 (A/B 测试)
比较评估,或称A/B测试,向评估员提供一个提示词 (prompt)和两个或更多不同模型(例如,您微调 (fine-tuning)的模型与基础模型,或两个不同微调版本)的输出。评估员的任务是选择哪个响应整体上更好,或对其进行排序。此方法通常能产生更一致的结果,因为判断相对质量比打绝对分数是更容易的认知任务。
比较评估工作流程图。人工评估员比较两个模型针对同一提示词的输出,并选择偏好的一个。
此方法对于判断您的微调工作是否对原始模型产生了明显改进尤其有用。
框架就绪后,您可以进行评估了。
构建评估集: 创建多样化的提示词 (prompt)集合,这些提示词能代表模型实际使用情况。该集合应包含常见场景、有挑战性的边缘情况,甚至旨在测试特定失效模式(如生成不安全内容或泄露私人信息)的对抗性提示词。50-200个精心设计的提示词通常足以获得明确结果。
指导评估员: 为您的评估员提供清晰、详细的说明。您的文档应包含评估标准、每个标准的定义,以及若干正面和负面响应示例,以校准他们的判断。评估质量直接取决于说明质量。
收集并分析反馈: 对于小规模评估,可以使用简单的电子表格来收集评分。对于规模较大或持续的项目,您可能需要使用专业的数据标注平台。数据收集完成后,汇总结果。对于使用李克特量表的直接评估,您可以计算每个标准的平均分。对于比较测试,您可以计算一个模型相对于另一个模型的胜率。
下面的图表显示了比较评估的汇总结果示例,它比较了基础模型和微调 (fine-tuning)模型在三个标准上的表现。微调模型在有用性和事实准确性方面显示出明显改进。
比较基础模型和微调模型的人工评估汇总得分。
最终,定性评估为模型的表现提供了真实情况。它通过回答核心问题(模型是否能很好地服务于将要使用它的人?)来补充自动化指标。整合此反馈循环是开发高质量、可靠且安全的语言模型的标准做法。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造