趋近智
你已经顺利完成了训练循环并生成了更新后的模型权重 (weight)。接下来的任务是确定你的轻量级语言模型是否能正确执行预定任务。训练过程中损失值的下降表明模型正在拟合数据,但这并不保证生成的文本在实际应用中是准确、连贯或有用的。
在本章中,你将通过定性观察和定量测量来评估微调 (fine-tuning)后的模型。首先,你将检查文本生成质量,观察模型对标准指令提示词 (prompt)的响应情况。随后,你将计算标准的自然语言处理指标,为模型表现进行评分。例如,你将计算困惑度(Perplexity)。如果 代表序列中的标记 (token)数量,困惑度将通过以下公式衡量模型预测该样本的能力:
你还将追踪 ROUGE 等指标得分,将生成的输出与参考文本进行对比。我们将测试提示词的泛化能力,确保模型在面对不熟悉的表述时不会失效。通过直接对比微调输出与基础模型,你将学习如何识别过拟合 (overfitting)和灾难性遗忘的迹象。最后,你将编写一个自动化评估脚本来处理预留数据集。这为你提供了一套可重复的方法,在进入最终部署阶段前为模型建立性能基准。
6.1 评估文本生成质量
6.2 NLP 任务的定量指标
6.3 测试提示词泛化能力
6.4 识别生成过程中的过拟合
6.5 动手实践:运行评估脚本