趋近智
大师班
尽管困惑度等内部指标能衡量模型预测下一个词元的能力,但它们不总能完整体现模型的实际作用。单纯基于模型内部的语言建模能力进行评估,可能不足以了解其在具体应用中的表现。
本章将重心转向外部评估方法。我们将研究如何通过衡量大型语言模型(LLM)在具体的下游自然语言处理(NLP)任务上的表现来评定它们。这种方法能让人们更实在地了解模型在部署后可能遇到的情况中的表现。
您将学到:
在本章结束时,您将了解如何通过将LLM应用于具体的、实际的NLP问题来衡量其有效性,这将补充从内部指标获得的信息。
22.1 下游任务评估的理由
22.2 常见下游自然语言处理任务
22.3 评估时的微调步骤
22.4 标准基准:GLUE 和 SuperGLUE
22.5 少量示例和零示例评估
22.6 开发定制评估任务
© 2026 ApX Machine Learning用心打造