特征归因方法主要有助于搞清输入中的哪些部分影响输出。与之相对,神经元与电路分析旨在了解模型内部如何计算其输出。这包括考察构成大型语言模型(LLM)的巨大神经网络中,各个计算单元(神经元)以及它们形成的互连通路(电路)。弄清这些内部机制对于诊断并减轻仅凭输入-输出分析可能无法显现的具有安全风险的行为具有重要意义。
窥探内部:大型语言模型中的神经元
在Transformer等深度学习模型的背景下,“神经元”通常指某一层激活向量中的一个标量值。例如,在Transformer的前馈网络(FFN)层中,输出向量由许多此类标量激活值组成,每个值表示模型学到的一个潜在特征或理念。分析这些单独的神经元可以提供对模型内部表示的认识。
分析单独神经元的常用方法包括:
- 激活分析: 检查神经元激活值在大型数据集上的分布情况。高激活通常表明存在神经元已学会检测的任何特征或理念。我们可以特别寻找对与安全问题相关的输入(例如毒性、偏见或有害内容请求)强效或选择性激活的神经元。
- 数据集示例搜索: 确定数据集中(或精选提示集)导致特定神经元激活最强的具体示例。这提供了神经元可能响应内容的具体例子。例如,发现某个神经元对包含仇恨言论的提示强烈激活,表明它可能是处理有害语言机制的一部分。
- 激活最大化(特征可视化): 合成生成或优化一个输入提示,以使特定神经元的激活最大化。虽然产生的输入有时可能抽象或不自然,但它们可以显示神经元对什么核心模式或理念敏感。然而,解读这些优化后的输入需要谨慎。
- 神经元消融: 通过实际将神经元从计算中移除来研究其因果效应,通常是将其输出激活值设为零。通过观察消融如何影响模型的输出(例如,其生成有害文本的倾向、其在特定任务上的表现),我们可以推断神经元的功能及其对某些行为的重要性。如果消融某个神经元能显著减少有害输出,而不过度损害一般性能,它可能成为安全干预的目标。
设想一个场景,我们分析FFN层中的神经元。我们可能会发现神经元#1024对于与医疗建议相关的提示持续显示高激活,而神经元#2048对包含暴力描述的提示强烈激活。
简化的神经元激活分布比较,用于处理安全与有害提示。有害提示的更高激活表明该神经元可能参与处理或生成不安全内容。
理解计算:大型语言模型中的电路
虽然单独的神经元可以提供信息,但复杂行为常源于多个神经元跨不同层之间的交互。“电路”指互连神经元和权重的子图,它实现一个特定且通常可解释的功能。识别与安全相关的电路是可解释性研究的一个前沿方向。
电路分析的重要方法包括:
- 手动检查与假设检验: 基于已知的Transformer机制(如注意力头、特定FFN层)和神经元分析的观察结果,研究人员可能会对简单电路进行假设。例如,追踪从与有害请求相关的输入标记,穿过特定注意力头和FFN层,直至最终输出预测的信息流。
- 路径修补: 这是一种有效的因果分析方法。它涉及在两种不同输入上运行模型:一个“干净”输入(例如,导致安全输出)和一个“损坏”输入(例如,导致不安全输出)。然后,“干净”运行的激活值被“修补”(复制)到“损坏”运行的特定中间状态。如果在特定点(例如,特定注意力头或FFN层的输出)修补激活值,能在“损坏”运行中恢复安全行为,这有力证明了导致该激活状态的计算路径是造成行为差异的电路一部分。这可以精准确定关键安全路径。
路径修补示意图。来自安全输入并行运行的激活值被插入到第i层的主运行(使用有害输入)中。如果最终输出从有害变为安全,则被修补的组件就与有害行为有关。
- 识别已知电路: 研究人员已识别出Transformer中一些重复出现的计算模式,例如“归纳头”(参与重复序列)或与事实回忆相关的电路。弄清这些已知电路是否以及如何与安全相关输入交互或导致故障模式(如生成重复的有害内容)是一个活跃的研究方向。
- 自动化电路发现: 鉴于大型语言模型的复杂性,手动找到所有相关电路是不现实的。研究着眼于自动化方法,通常使用对权重矩阵进行奇异值分解(SVD)等技术,或分析激活关联性来寻找协同工作的神经元群。这些自动化技术旨在将电路分析扩展到更大模型,并发现以前未知的作用机制。
神经元和电路分析的挑战
解读大型语言模型内部工作机制是具有挑战性的:
- 多义性: 单个神经元可能响应多个看似不相关的理念而激活,使其具体作用难以确定。
- 分布式表示: 重要理念或功能往往分布在许多神经元和多个电路中,而非局限于单个单元。
- 规模与复杂性: 大型语言模型中神经元和连接的数量庞大,使穷尽式分析在计算上难以承受,且发现难以推广。
- 主观性: 为神经元或电路的功能赋予人类可理解的含义本质上涉及解读且可能具有主观性。
对安全的重要性
尽管存在挑战,神经元和电路分析为大型语言模型安全提供了独特的益处:
- 机制理解: 它从相关性转向识别特定不安全行为背后的潜在因果机制(例如,识别为特定人群生成偏见语言的电路)。
- 有针对性的干预: 识别导致故障的特定神经元或电路,允许在微调期间甚至事后模型编辑中进行更有针对性的干预,有可能纠正安全问题,同时对整体能力影响最小。
- 预测故障: 弄清某些电路如何工作,可能有助于预测新型故障模式或弱点,在它们在部署中被观察到之前。
- 建立信任: 展现对模型为何安全(或不安全)行为的更深入认识,有助于构建更值得信赖的人工智能系统。
通过审慎应用神经元和电路分析方法,我们可以更全面地了解驱动大型语言模型行为的内部计算,提供诊断、监测并最终减少安全风险的宝贵工具。这补充了输入-输出分析,并为将模型理解为复杂的计算系统而非仅仅是黑箱提供了途径。