虽然标准评估指标只能提供部分信息,但微调大型语言模型的实用性常常取决于其生成事实正确且有依据回复的能力。预训练模型本身就难以避免生成听似有理的错误信息,这被称为幻觉。如果管理和评估不当,微调过程,特别是针对特定用途或指令数据集的微调,有时会加剧这一问题。模型可能会过度适应微调数据的风格或其所认定的知识,即使这些数据包含不明显的错误或偏见,或者模型可能会学会自信地断言其训练数据无法支持的说法。
评估事实准确性不仅仅是简单的字符串匹配。它需要评估模型生成的内容是否与已知事实或提供的背景信息一致。幻觉是事实错误的一种,特指模型生成的内容是荒谬的、内部矛盾的或完全捏造的,但通常以高度自信的方式呈现。
明确范围:事实错误与幻觉
区分不同类型的不准确性是有益的:
- 事实错误: 模型生成的内容与既定、可验证的知识相悖。这可能源于预训练数据中的过时信息,或在微调过程中学到的不准确之处。
- 例子: 一个使用2018年医学文本进行微调的模型,可能会提供过时的治疗建议。
- 幻觉: 模型生成的信息并非基于其训练数据或任何提供的背景。它本质上是“凭空捏造”内容。这可能包括细微、听似有理的细节,也可能是完全虚构的事件或实体。
- 例子: 当被问及一个特定、鲜为人知的开源库时,模型会为其编造不存在的函数或属性。
区分简单事实错误和幻觉有助于集中评估工作。
评估方法
评估事实准确性具有挑战性,因为它常常需要外部知识和背景。存在多种方法,每种方法都有其优缺点:
1. 基于参考的评估
此方法将模型的输出与已知的“真实”参考文本或知识库进行比较。
- 方法: 使用衡量指标来评估生成文本与参考文本之间的语义重叠或事实蕴含关系。这可能包括:
- 信息提取:识别两个文本中的重要实体或关系并进行比较。
- 问答:生成参考文本中包含答案的问题,并检查模型输出是否正确回答了这些问题。
- 自然语言推理(NLI):使用单独的NLI模型来判断生成的内容是否被参考文本蕴含、矛盾或中立。
- 优点: 可以在一定程度上自动化;当存在可靠参考时,能直接衡量其与已知事实的一致性。
- 缺点: 严重依赖参考数据的质量和可用性;可能会惩罚参考中不存在的有效释义或新颖(但正确)的信息;对于抽象或主观主题较难操作。
2. 无参考评估
这些方法尝试评估事实准确性,而无需直接与真实数据进行比较,通常通过检查内部一致性或使用外部工具。
- 方法:
- 内部一致性检查: 模型在单个回复中或跨相关查询时是否存在自相矛盾?
- 外部知识验证: 借助外部API(如搜索引擎或结构化知识库)来验证模型提出的说法。这通常涉及将模型的输出分解为独立的说法并查询外部来源。
- 不确定性估计: 分析模型置信度分数(尽管这些分数常常校准不佳)或使用蒙特卡洛(Monte Carlo)Dropout等方法来评估不确定性。对捏造说法的自信是幻觉的显著特征。
- 优点: 无需为每个可能的输出预编译真实数据;可以借助广泛的外部知识来源。
- 缺点: 验证可能缓慢且昂贵(API调用);准确解析说法很困难;外部知识来源也可能不完整或包含错误;不确定性指标并非总是事实准确性的可靠标志。
3. 基准数据集
已开发出专门的基准测试来检查事实准确性和真实性。
- 例子:
- TruthfulQA: 旨在衡量模型在对抗性环境中是否真实回答问题,在这种情况下,模仿网上发现的人类虚假信息可能导致不正确的答案。
- FEVER(事实提取与验证): 要求根据提供的证据(通常是维基百科)将说法分类为“支持”、“反驳”或“信息不足”。尽管最初用于检索系统,但其原则也适用于大型语言模型的评估。
- 特定用途数据集: 对于在特定用途(例如法律、医学)上微调的模型,基于该用途知识的定制事实检查数据集非常必要。
- 优点: 提供标准化的评估场景;针对事实准确性和幻觉的特定方面进行测试。
* **缺点:** 可能无法完美反映使用模式;模型有时会过度适应基准格式;创建高质量、多样化的基准测试耗费大量人力。
比较基于自动化潜力和对真实数据依赖的评估方法。
4. 人工评估
通常被认为是黄金标准,特别是对于幻觉的评估。
- 方法: 人工标注员根据特定指南审查模型输出。他们可能会:
- 根据李克特(Likert)量表对回复的事实准确性进行评分。
- 识别幻觉实体或说法的具体例子。
- 将模型输出与参考答案或外部来源进行比较。
- 检查与提供的源文档的一致性(如果适用,例如在摘要或RAG语境中)。
- 优点: 捕捉自动化指标遗漏的细节;提供关于失败模式的定性观察;是针对主观或复杂评估最可靠的方法。
- 缺点: 缓慢、昂贵且难以扩展;需要清晰的标注指南和训练有素的评估员;受制于标注员间的一致性差异。
微调模型的实际考量
评估微调模型时,请考虑以下几点:
- 专业领域特定性: 一般的事实核查基准可能不够。请创建或调整评估集,使用与目标专业领域相关的知识(例如,公司内部文件、特定技术标准)。
- 指令忠实性与事实准确性: 模型可能完美地遵循指令,但根据指令本身存在的错误前提生成事实不准确的内容。请区分遵循指令的能力(上一节已涵盖)与生成内容的真实性。
- 微调数据的影响: 分析微调数据集,查找模型可能已吸收的事实错误或偏见的潜在来源。数据是否经过准确性审查?
- 校准: 评估模型的置信度是否与其正确性一致。一个自信地给出错误答案的模型通常比一个表达不确定的模型问题更大。
评估事实准确性和尽量减少幻觉是持续研究的课题。没有单一方法是万无一失的。通常需要结合自动化技术、有针对性的基准测试和严谨的人工审查,才能全面了解您的微调模型的可靠性。这种评估不仅仅是最终的检查;其结果应指导后续的数据整理和微调策略。