确保大型语言模型安全运行,不仅仅需要初始对齐;还需要理解其输出背后的原因,并持续监控其运行中的行为。本章内容将从训练阶段对齐,转向事后分析和持续关注。你将学习解释模型内部构成的方法,包括特征归因法,以及分析与安全相关的神经元或电路功能的方式。我们还会介绍监控已部署LLM以发现新出现问题的策略,使用统计方法检测行为异常,以及旨在纠正特定安全问题的模型修改技术。其目的是提供实用方法,以验证并保持模型在整个运行周期中的安全性。