评估对分布偏移的韧性

尽管对齐 (alignment)技术旨在根据训练和验证数据上的预期原则来塑造大型语言模型（LLM）的行为，但实际应用场景很少是静态的。用户提交的提示、他们讨论的话题，甚至潜在的事实或社会规范都可能随着时间变化，或者与模型训练或对齐所用的数据存在显著差异。这种现象称为分布偏移，而评估LLM在此类偏移下的稳定性是确保其安全性和可靠性的重要组成部分。一个在初始测试集上看起来安全的模型，在遇到来自略有不同分布的数据时，可能会表现出意料之外或不安全的行为。

理解LLM中的分布偏移

分布偏移指的是部署时遇到的数据分布与训练或微调 (fine-tuning)时使用的数据分布不同的情况。对于LLM而言，这些偏移可以通过以下几种方式表现出来：

协变量偏移 (Covariate Shift)：输入提示的分布 $P(x)$ 发生变化，但从提示到理想回复的底层预期映射 $P(y|x)$ 保持不变。例如，一个主要在正式、结构化问题上微调的LLM，后续可能部署在一个处理非正式、包含俚语或错字的口语化查询的系统中。提示的类型发生了变化，即使对于给定查询类型所需的安全且有帮助的回复特点保持不变。
映射关系偏移 (Concept Shift)：输入与预期输出之间的关系 $P(y|x)$ 发生变化。这对安全性尤其相关，因为社会规范或有害内容的定义会随时间演变。在训练期间被认为是可接受或无害的回复，之后可能变得不合适。同样，用户期望或对某些类型查询的“有用”答案的定义也可能发生变化。
子群体偏移 (Subpopulation Shift)：输入数据中不同子群体的相对频率发生变化。一个主要针对一般知识相关提示进行测试的模型，可能会遇到关于特定小众技术主题或来自特定人口群体的查询量激增，这些群体的语言模式与训练时的大多数不同。这会暴露出模型在处理不常见输入时的不足，或显示出偏见。
数据范畴偏移 (Domain Shift)：模型遇到的提示与其训练数据来自完全不同的数据范畴。一个在虚构故事讲述上训练的LLM，在被要求提供技术文档的事实摘要时，表现可能不佳或不安全。
时间偏移 (Temporal Shift)：仅仅因为时间的流逝而发生变化。新事件发生，语言演变，信息过时。模型的知识库可能变得不准确，导致“诚实”但事实不符的回复，或者它可能无法理解新术语。

为何分布偏移对安全很重要

分布偏移对LLM的安全性和对齐 (alignment)带来直接风险：

安全过滤器的效果下降：在一个数据分布上训练的安全分类器或防护措施，可能无法识别以新颖风格或语境呈现的有害内容（例如，不明显的仇恨言论、新型错误信息）。
偏见的浮现：向特定子群体或主题的偏移可能放大模型中先前潜在的偏见，导致不公平或带有刻板印象的输出。
帮助性和真实性降低：模型可能难以理解或恰当响应不熟悉的提示类型，导致无用或无意义的答案。时间偏移可能使先前真实的陈述变得不准确。
对齐失败：RLHF等对齐技术依赖于根据人类偏好训练的奖励模型。如果用户提示或偏好的分布发生显著偏移，奖励模型的判断可能不再准确反映所需行为，导致LLM策略偏离对齐。如果模型遇到奖励模型校准良好的分布之外的提示，规范博弈可能变得更容易。

评估韧性的技术

全面评估对分布偏移的适应性，需要超越标准的分布内测试集。以下是常用方法：

目标性分布外 (OOD) 数据集：构建或整理专门用于表示预期偏移的评估数据集。这可能涉及：
- 收集不同时间段的数据。
- 使用来自不同数据范畴（例如，法律、医疗、社交媒体）的提示。
- 生成具有不同语气、正式程度或语言风格的提示。
- 使用旨在测试特定韧性方面的数据集，例如对拼写错误或改写的抵抗（例如，AdvGLUE或Dynabench等基准测试的子集）。
子组分析：将评估数据明确划分为相关子组（基于主题、用户类型、提示长度、敏感词的存在等），并分别为每个子组测量性能和安全指标。这有助于识别模型在与数据构成相关的偏移下表现不佳的具体区域。
扰动压力测试：系统性地对现有测试提示应用转换以模拟低层级偏移。这可以包括：
- 添加拼写错误或语法错误。
- 使用不同词汇改写提示。
- 附加无关上下文 (context)或分散注意力的短语。
- 将提示翻译成另一种语言再翻译回来（回译）。
监控生产偏移：对已部署的LLM实施监控系统，以跟踪输入提示分布的变化（例如，主题频率、查询复杂性），并将其与输出质量、安全违规率或用户反馈的变化相关联。这提供实际应用中韧性问题的信号。（这与第6章和第7章的主题紧密相连）。

衡量偏移下的性能

主要目的是量化 (quantization)从分布内 (ID) 数据到分布外 (OOD) 数据时性能下降的程度。重要指标包括：

性能下降：计算ID测试集与特定OOD测试集之间标准评估指标（例如，准确率、BLEU、ROUGE、HHH（有用、诚实、无害）的人工评估分数）的差异。

示例比较展示了当在表示风格或主题偏移的分布外数据集上进行评估时，不同模型的无害性分数可能下降得更明显。
安全违规率增加：衡量与ID数据相比，在OOD数据集上生成有害、偏见或不当内容的频率变化。
校准误差：评估模型在OOD输入上的置信度分数是否保持可靠。模型在面对不熟悉的数据时可能会变得过度自信或信心不足。

韧性评估中的难点

全面评估韧性存在一些难点：

预测未来偏移：无法准确预测所有潜在的未来分布偏移。评估工作必须侧重于合理或高风险情景。
数据获取：创建或获取代表各种偏移的高质量、带标签OOD数据集可能既昂贵又耗时。
定义“偏移”：量化 (quantization)分布之间的“距离”并非易事，因此难以系统性地将偏移幅度与观察到的性能下降相关联。
特异性与普遍性：对一种类型偏移（如拼写错误）的韧性不能保证对另一种类型（如数据范畴偏移）的韧性。全面评估需要跨多种偏移类型进行测试。

评估LLM如何处理分布偏移不仅仅是学术练习；它对于在动态的实际应用环境中安全可靠地部署LLM是十分必要的。这需要付出专项努力，使用目标数据集、子组分析和持续监控，以理解模型在遇到意料之外情况时行为如何变化。这种持续评估对于长期维持对LLM系统的信任至关重要。

这部分内容有帮助吗？

参考文献

Holistic Evaluation of Language Models, Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D. Manning, Christopher Ré, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, Yuta Koreeda, 2023 Transactions on Machine Learning Research DOI: 10.48550/arXiv.2211.09110 - 本文提出了一个全面的语言模型评估框架，涵盖了各种场景，包括模型在分布偏移下的表现。
Red Teaming Language Models to Reduce Harms: Methods, Limitations, and Ethical Considerations, Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, Andy Jones, Sam Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield-Dodds, Tom Henighan, Danny Hernandez, Tristan Hume, Josh Jacobson, Scott Johnston, Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei, Tom Brown, Nicholas Joseph, Sam McCandlish, Chris Olah, Jared Kaplan, Jack Clark, 2022 arXiv preprint arXiv:2209.07858 DOI: 10.48550/arXiv.2209.07858 - 介绍了红队测试作为一种通过寻找导致有害输出的提示来识别和缓解大型语言模型风险的方法，模拟了在分布外场景下的压力测试。