训练大型语言模型会得到一个强大的工具,但其内部运作方式往往不透明。仅仅在评估指标上表现良好,并不能完全说明模型是如何得出其结果的,也无法保证它在各种情况下的可靠性。本章侧重于介绍一些方法,用于观察“黑箱”内部,并分析这些复杂系统所学到的行为。您将了解一些技术,用于解释模型决策并发现潜在的不足。具体来说,本章将包含以下内容:可视化注意力图,以理解模型如何权衡输入词元。使用探针任务,评估模型隐藏状态中捕获的语言信息。分析单个神经元或层的激活模式。识别和理解常见故障模式的策略。理解这些分析技术有助于调试模型,建立对其输出的信任,并指导后续的改进或对齐工作。