趋近智
模型微调完成后,你会面临一个基本问题:它表现如何?对于生成型任务,回答这个问题不像检查准确率分数那样直接。与分类问题中输出结果非对即错不同,生成文本的质量是主观且多方面的。一份摘要可能事实正确但文笔不佳。一次翻译可能直译但听起来生硬。聊天机器人的回复可能很流畅但无助于解决问题。
因此,评估经过微调的生成型模型需要根据其预期功能采取周到的方法。你选择的评估指标必须反映微调任务的具体目标。一个用于总结法律文档的模型,其评判标准会与一个旨在生成创意营销文案的模型有所不同。
明确评估策略的首要步骤是确定模型的主要功能。不同的任务对文本质量的不同方面有不同的侧重。
目标是生成更长文本的简洁准确呈现。评估必须衡量:
这类任务的自动化评估指标通常依赖于与人工编写的“参考”摘要的词语或短语重叠度。
在这里,目标是在不同语言中传达源文本的准确含义。评估侧重于:
与文本摘要类似,评估通常涉及将模型的输出与一份或多份专业人工译文进行比较。
对于这些任务,模型必须对用户的提示提供直接且正确的回复。成功的标准是:
事实正确性众所周知难以自动衡量,通常需要人工审核或与已知知识库进行比较。
评估聊天机器人或对话代理很复杂,因为它涉及多轮交互。单个好的回复不足以衡量;整个对话必须有效。主要评估点包括:
鉴于生成型任务的多样化要求,评估策略建立在两种独特但互补的方法之上:自动化定量指标和人工定性评估。
一个评估框架结合了用于持续监测的快速自动化指标,以及用于衡量实际表现的较慢、更详尽的人工评估。
这些算法通过将模型的输出与参考文本进行比较来计算分数。它们的主要优点是速度快和可扩展性高。你可以在数千个示例上自动运行它们,以便在模型迭代过程中获得持续一致的性能衡量。它们对于训练期间追踪进展和比较不同模型版本不可或缺。
常见的自动化评估指标分为几类:
我们将在下一节介绍这些评估指标的实现方法。
没有哪种自动化指标能完美捕捉生成文本的质量。输出是否听起来自然?是否真正有创意?是否事实正确?回答这些问题需要人工判断。人工评估是衡量模型表现的黄金标准,尽管它更耗时且成本更高。
人工评估的常见方法包括:
全面的评估策略会利用自动化指标进行快速、迭代的反馈,并辅以定期的人工评估,以确保模型真正实现其目标。有了这个框架,我们现在可以研究最常见定量指标的实现细节。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造