构想探查与表征分析

虽然特征归因方法有助于我们理解输入哪些部分影响了特定输出，但构想探查和表征分析提供了一个不同视角来观察模型的内部运作方式。这些技术旨在确定抽象构想（尤其是那些与安全相关的，如毒性、偏见或诚实度）是否以及在何处编码在模型的中间表征（激活值）中。理解这一点对于诊断不良行为和验证对齐 (alignment)机制很有用。

概念探查研究LLM的激活空间，以判断在与特定构想相关的许多输入中是否存在一致的模式。

探查方法

其核心思想比较直接：训练一个简单的辅助模型，称为“探查器”，仅仅基于LLM的内部激活值来预测某个构想的存在或属性。

选择一个构想：定义您要研究的构想。这可以是一个二元属性（例如，“有毒”与“无毒”）、一个分类属性（例如，“主题是政治/体育/科学”），甚至是一个连续值（例如，“情感分数”）。与安全相关的构想通常包含毒性、偏见维度（性别、种族）、诚实度或遵守特定安全指令等。
选择目标表征：决定LLM的哪些内部激活值将作为探查器的输入。这通常涉及选择特定层（例如，Transformer块的中间层、输出逻辑值之前的最后一层）或特定组件（例如，注意力头或MLP子层的输出）。
收集数据：收集一个数据集，其中每个实例包含：
- 输入到LLM的文本。
- 来自所选LLM层（或多层）的相应内部激活值。
- 一个标签，表明该输入中构想的存在、缺失或值。例如，输入可以是标记 (token)为“有毒”或“无毒”的句子。
训练探查器：训练一个探查器模型（通常是一个简单模型，如线性分类器或小型多层感知器MLP），使用LLM的激活值作为输入特征来预测构想标签。
评估探查器：评估探查器的准确性。如果探查器的表现远优于随机，这表明有关该构想的信息确实已编码，或者至少可以在所选的LLM表征中线性可解码。

构想探查设置的简化视图。来自冻结LLM特定层的激活值用于训练一个独立的探查器模型，以预测一个预定义的构想标签。

探查器类型与解释

探查器模型的选择有其影响：

线性探查器：常使用逻辑回归或线性支持向量 (vector)机 (SVM)。线性探查器获得高准确度表明该构想在激活空间中是线性表示的。这是模型以直接的几何方式显式编码该构想的强有力迹象。线性探查器的权重 (weight)有时可以解释为激活空间中的“构想向量”。
非线性探查器：小型MLP可以捕获激活值与构想之间更复杂、非线性的关系。尽管潜在地更准确，但高准确度的非线性探查器会使解释变得更难。这可能表明构想信息存在但以复杂方式交织，或者探查器本身可能正在利用丰富的激活特征学习分类任务，而并不一定意味着LLM内部存在简单的编码。探查器准确性和关于LLM内部表征断言的清晰度之间存在权衡。

分类中的表征分析

探查不限于分类。表征分析技术进行更深入的研究：

方向性探查：探查器不仅可以分类存在/缺失，还可以训练来预测连续值（例如，毒性分数）。探查器预测相对于激活值的梯度，或线性探查器的权重 (weight)，可以指示激活空间中与构想强度增加或减少对应的方向。
比较分析：可以在相同的表征上为相关构想（例如，不同类型的偏见，或毒性与正式度）训练探查器。比较探查器权重或表现可以表明LLM内部是区分这些构想还是将它们混淆。
层级演变：通过在不同层的激活值上训练探查器，您可以追踪信息流经LLM时，构想的表征如何演变。与安全相关的构想可能只在较后的层中变得清晰可辨。

在安全方面的应用

构想探查对于安全方面尤其有价值：

识别偏见编码：训练探查器，在处理中性提示时，根据激活值检测性别、种族或其他人口统计学属性，可以显现模型中编码的不良刻板印象关联。例如，即使上下文 (context)相同，处理关于“医生”与“护士”的句子时，激活空间是否会系统性地不同？
检测潜在危害：我们能否训练一个探查器，根据模型的内部状态，甚至在令牌发出之前，预测模型是否即将生成有害内容？这可能为更快的内部安全机制提供信息。
验证安全训练：如果模型已经过安全微调 (fine-tuning)（如RLHF或宪法式AI），可以使用探查器检查与安全指令相关的构想（例如，“拒绝”、“无害”）是否与基础模型相比，在激活空间中现在更清晰地表示或更易分离。
理解故障模式：当模型未能通过安全基准测试，或尽管已对齐 (alignment)但仍生成不良输出时，在该生成过程中探查激活值有助于诊断原因。有害构想的表征是否与无害构想过于相似？安全机制的表征是否未能强烈激活？

挑战与重要考量

虽然功能强大，但探查需要仔细解释：

相关性不等于因果关系：成功的探查表明构想信息可以从激活值中解码。这不一定意味着这些特定的激活值导致了模型与该构想相关的行为，或者模型以探查器的方式“使用”了这些信息。
探查器忠实度：探查器理想情况下应使用LLM使用的相同信息。复杂的探查器可能通过与LLM表示该构想的主要机制无关的不明显关联来学习任务。通常更倾向于使用简单的探查器以提高可解释性。
构想定义与数据质量：结果高度依赖于构想的定义质量以及数据集的标注准确性。探查“公平性”等模糊构想比探查“提及特定位置”等具体类别明显更难。
计算成本：提取激活值和训练探查器，特别是对于大型模型跨越许多层和构想时，需要大量计算资源。

构想探查和表征分析提供了一个有价值的窗口来观察LLM的内部状态，补充了其他可解释性方法。通过检查与安全相关的构想如何编码（或未编码）在模型的隐藏状态中，我们获得对于构建更可靠和可验证AI系统很重要的更深理解。这些技术不仅仅停留在表面行为分析层面，从而能更直接地评估模型是否真正内化了其安全训练所依据的原则。

这部分内容有帮助吗？

参考文献

Representation Engineering: A Top-Down Approach to AI Alignment, Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks, 2023 ArXiv DOI: 10.48550/arXiv.2310.01405 - 介绍了表示工程，它涉及识别和操纵LLM中的概念表示，以提高安全性并引导模型行为，与探针在对齐方面的应用高度相关。