趋近智
从构建对齐模型转向评估它们时,我们需要具体的标准来判断它们的行为。仅仅声称一个模型是“对齐的”或“安全的”是不够的,除非明确这些术语在实践中意味着什么。目标是将这些高层面的想法转化为可衡量的方面,以反映期望的表现和不理想的失败模式。
一个普遍采用的评估框架,特别受到Anthropic强调并在业界具有影响力的,围绕着三个主要原则:有用性、诚实性和无害性(通常简称HHH)。尽管存在其他表述方式,这三个方面为分析和评估大型语言模型的复杂行为提供了一个起点。它们既是训练期间对齐技术的指导,也是部署后评估规程的指引。
让我们详细审视每个方面:
有用性直接关系到模型理解并成功满足用户请求或隐含意图的能力。一个理想的有用模型应:
实现有用性并非总是简单直接。它要求模型解释歧义,做出合理假设,有时甚至澄清用户意图。过分优先考虑有用性而不顾及其他方面可能导致问题;例如,模型可能试图通过回答其实际上不知道答案的问题(违反诚实性)或满足有害请求(违反无害性)来表现出有用。
大型语言模型背景下的诚实性主要涉及事实准确性和真实呈现。它无关道德意图,而是关于所提供信息的可靠性。重要的方面包括:
评估诚实性通常涉及将模型输出与真实数据源进行比较,或使用专门设计用于测试事实回忆和抵抗生成错误信息的基准(如TruthfulQA,我们将在后面讨论)。一个重要难题是区分真正的知识空白和融入到其他正确陈述中的细微编造。
无害性侧重于防止模型生成可能对个人或群体造成损害的输出。这是一个广泛的分类,包含各种不理想的内容类型:
准确定义无害性可能很复杂且依赖于语境。社会规范不同,表达意见和造成损害之间的界限可能模糊。模型通常采用安全过滤器和拒绝机制来阻止有害请求,但攻击者不断寻找绕过这些防御的方法(如第5章所述)。过于严格的无害性过滤器也可能通过拒绝被误解为有害的良性请求而妨碍有用性(即“斯肯索普问题”或相关情况)。
了解这三个方面并非完全独立非常重要。通常存在张力和权衡:
因此,评估大型语言模型的安全性和对齐度并非是孤立地最大化每个方面,而是要实现一个与特定应用目标和伦理考量相符的、可接受的平衡。本章后续部分将探讨用于衡量这些方面表现并处理其固有权衡的自动化基准、人工评估和红队技术。理解这些定义为有效应用这些评估方法提供了依据。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造