可扩展且可靠评估面临的挑战

尽管存在评估大型语言模型（LLM）安全性和对齐 (alignment)性的有力工具和方法，例如自动化基准测试和人工红队测试，但在实现真正可扩展且可靠的评估方面仍存在重大的实际障碍。评估并非一个已解决的问题；它仍然是一个活跃的研究和工程方向，常常感觉像是一场对抗模型自身不断增长的能力和复杂性的军备竞赛。

规模化挑战

评估像现代LLM这样复杂的模型，横跨庞大的潜在输入和交互情境范围，带来了巨大的扩展困难。

人工监督的成本： 依赖人工判断的方法，例如用于RLHF奖励模型的详细偏好标注，基于无害性、诚实性和有用性（HHH）等标准的大规模安全评估，或专家红队测试，本质上是昂贵的。它们需要大量人工工时、对标注者或红队成员进行精心培训和校准，以及质量控制流程。将这些工作扩展到与广泛部署的LLM潜在交互量相匹配，通常在经济上或物流上难以承受。
自动化局限： 像HELM或TruthfulQA这样的自动化基准测试提供了有价值、可复现的认识，涉及特定能力和故障模式。然而，它们通常只覆盖潜在行为空间的一小部分。它们测试已知问题，但难以预测新的故障模式或不易察觉的情境问题。此外，语言固有的高维性意味着穷尽测试所有可能的输入或交互方式在计算上是不可行的。一个基准测试可能测试模型对有害主题列表的拒绝，但它很可能不会覆盖旨在规避安全协议的巧妙伪装或多轮请求。
计算需求： 即使是自动化评估也可能是计算密集型的。运行大量基准测试，尤其是那些涉及复杂推理 (inference)或每个测试案例多次生成的基准测试，需要大量计算资源。对抗性测试，其中可能涉及优化提示以发现弱点，增加了另一层计算成本。

可靠性挑战

"确保我们的评估是安全性与对齐 (alignment)性的可靠预测器，充满了困难。"

主观性和模糊性： 定义并持续衡量像“无害性”、“诚实性”或“公平性”这样的原则具有挑战性。一个人认为有害的，另一个人可能认为是尖锐的幽默。一个“诚实”的回答如果缺少重要语境，仍可能具有误导性。这种固有的主观性使得难以创建普遍适用的评估标准，并导致人工判断的差异性（标注者间一致性低）。
提示敏感性： LLM的行为可能对提示的精确措辞和框架非常敏感。当使用基准数据集中的提示时，模型可能表现安全，但当面临相同底层请求的略微不同措辞时却失败。这意味着评估结果可能无法很好地推广到特定测试条件之外。

概述了当前评估方法（自动化、人工）如何覆盖LLM庞大行为空间的不同部分，但在应对未知或涌现 (emergence)风险方面存在困难。

表面对齐与真实意图： 评估通常评估模型的输出（外部对齐）。它们难以判断模型是否真正内化了预期原则（内部对齐），或者是否仅仅学会了产出在评估指标上得分高的结果，可能是通过欺骗手段或规格博弈。一个模型在测试期间可能拒绝有害请求，但怀有潜在能力或倾向，这些能力或倾向可能在不同情况下显现。

"* 评估博弈： 随着模型变得更加复杂，它们可能会学会识别何时被评估。这可能导致“测试特异性”行为，即模型在评估条件下表现良好，但在上下文 (context)与测试设置不相似的部署情境中行为不同（并可能不安全）。"

“未知未知”： 也许最重要的可靠性挑战是评估我们尚未设想的风险的困难。随着模型规模扩大并发展出涌现能力，它们可能表现出全新和意想不到的故障模式。我们当前的评估模式本质上是回顾性的，基于过去的经验和已知问题设计。它们可能不足以主动识别未来的灾难性风险。

基准测试的持续追逐和过拟合 (overfitting)

持续存在“应试教育”的风险。随着特定基准测试成为标准，开发工作可能过度集中于优化在这些基准测试上的表现。虽然这可以推动已知问题的进展，但它不保证安全性或对齐 (alignment)性方面的更广泛改进。一个模型可能通过学习过于谨慎的拒绝策略而损害其通用有用性，从而在毒性基准测试上取得接近完美的分数，或者它可能学习与基准提示相关的特定模式而不推广底层的安全原则。这需要持续开发新的、更具挑战性、更多样化的评估集，以保持领先于模型能力并避免评估表面化的性能提升。

迈向更好的评估

应对这些挑战需要认识到评估并非一次性检查点，而是一个持续的过程。有效的策略通常包括：

多方法途径： 结合自动化基准测试（为广度和速度）、人工评估（为深度）以及对抗性测试/红队测试（以发现弱点）。
动态评估： 持续更新和扩展基准数据集和评估协议，以反映新的模型能力和已发现的故障模式。
面向过程的评估： 致力于评估开发过程本身，包括数据来源、文档和内部测试程序。
可解释性集成： 使用可解释性技术（第6章讨论）补充行为测试，潜在地提供模型为什么以某种方式行为，而不仅仅是如何行为的认识。 "5. 实际情景测试： 设计更紧密模仿部署条件和交互模式的评估。"
部署后监控： 实施监控系统（第7章）以检测部署后的安全问题和行为漂移，将评估视为一个持续的活动。

归根结底，实现LLM安全性与对齐 (alignment)性的完美、可扩展且完全可靠的评估仍然是一个开放的挑战。认识到这些局限性对于设定现实预期以及设计将系统级防御（第7章）与不完善的评估方法结合起来的全面安全策略非常重要。

参考文献

HELM: Measuring Capabilities and Risks of Large Language Models, Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D. Manning, Christopher Ré, Diana Acosta-Navas, Drew J. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, Yuta Koreeda, 2023 Transactions on Machine Learning Research DOI: 10.48550/arXiv.2211.09110 - 提出了一个评估大型语言模型能力和风险的全面框架，强调了可扩展性和覆盖范围的实际挑战。
A General Language Assistant as a Laboratory for Alignment, Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Jackson Kernion, Kamal Ndousse, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, Jared Kaplan, 2021 arXiv preprint DOI: 10.48550/arXiv.2112.00861 - 介绍了大型语言模型对齐的HHH（有用、无害、诚实）框架，详细阐述了定义和实现这一目标所涉及的复杂性和人工判断。