对大型语言模型进行微调后,评价其真实表现是一个重要步骤。仅仅使用标准自然语言处理(NLP)指标,往往难以充分反映生成模型表现的精细特征,特别是在特定任务或应用范围中。本章提供了进行全面评估所需的方法。我们将处理传统指标的不足之处,并介绍专门适用于评价微调大型语言模型的技术。您将学习系统方法来评估指令遵循情况、检查事实准确性以及是否生成了无根据的陈述(幻觉),并分析模型输出中可能存在的偏见。此外,我们涵盖了测试模型对不同输入稳定性的方法、模型校准的重要性,以及定性分析和结构化人工反馈在了解模型的真正能力和局限方面所起到的必要作用。