宪法式AI的成效在很大程度上取决于宪法本身的品质和其设计。可以将宪法看作不只是一套规则,而是大型语言模型(LLM)所需道德和行为准则的明确、成文体现。它作为AI学习评估和完善自身输出的依据,从而减少了对人工标注校准信号的直接依赖。设计有效的宪法是一项具有挑战性的多学科任务,需要认真考虑其原则、结构和实际操作。这是一个反复进行的过程,常根据观察模型在初始草案指引下的行为进行完善。宪法的组成部分CAI框架内的宪法通常由一系列原则或启发式规则构成。这些通常以自然语言表述,旨在涵盖与以下内容相关的规范:安全和无害性: 避免生成有毒、偏见、非法或危险的内容。有用性和诚实性: 鼓励准确、相关和真实的回复,包括承认不确定性。遵从性: 遵守为AI定义的具体指令、角色或人设。公平和公正性: 避免歧视性语言或延续有害的刻板印象。这些原则不只是抽象的理念;它们的制定方式必须确保一个AI模型(作为评判者)能够使用它们,在CAI的监督学习阶段评估和指导另一个AI模型(主要LLM)的输出。有效原则的特点为了有效,宪法内的原则应具备以下几个重要特点:清晰和具体性: 模糊性是有效AI指导的敌人。原则应尽可能清晰和具体地阐明。模糊的指令会导致不一致或不正确的评判和修改。效果不佳: “要友好。”效果更佳: “避免对任何个人或群体使用侮辱、人身攻击或贬损性语言。”效果不佳: “不要生成不良内容。”效果更佳: “不要生成宣扬非法活动、描绘非自愿性内容或构成针对受保护特征仇恨言论的内容。”可操作性: 原则必须能够被AI评判者以产生具体行动的方式来理解。评判者需要了解 什么 构成违规以及 如何 修改回复以符合要求。这通常涉及将原则表述为直接指令或禁令。全面性(覆盖): 宪法应旨在涵盖预期可能出现的不良行为种类。这要求预见LLM可能出现故障或产生问题输出的方式。宪法中的空白代表校准过程中的潜在弱点。一致性: 原则之间不应相互矛盾。内部冲突可能导致AI在努力满足相互对立的要求时陷入停滞或出现无法预测的行为。例如,一个要求绝对真实的原则可能与在敏感社交场合要求礼貌的原则相冲突。解决潜在冲突通常需要仔细措辞或建立优先级规则。原子性(通常可取): 将复杂的准则分解为更小、更细致的原则,可以使AI评判者更容易可靠地应用它们。例如,与其设定一个关于“成为一个好助手”的大原则,不如将礼貌、事实性、安全和简洁性分别设立原则,这可能更有效。宪法的结构和格式虽然宪法常以自然语言编写以便于人类阅读,但它需要以可用的格式呈现给AI评判模型。这通常涉及将原则整合到用于引发评判的 提示 中。技巧包括:编号列表: 将原则作为清晰的、分项列表呈现。结构化格式(例如,类似XML的标签): 使用标签来区分原则或章节,可能使模型更容易解析和引用特定规则。例如,Anthropic在其提示中使用了类似XML的标签。角色扮演: 指示评判模型扮演评估者,对照列出的原则检查合规性。所选格式应最大限度地提高评判模型在评估LLM回复时,持续理解并应用每个相关原则的可能性。迭代式开发和完善宪法设计很少是一次性完成的过程。一套初始原则作为起点。主要的下一步是观察CAI过程如何在这种宪法的指导下运作:生成回复: 让基础LLM对多样化的提示生成回复。应用CAI: 使用当前宪法运行评判和修改阶段。评估输出: 分析修改后的回复。它们是否与预期的行为更好地匹配?是否存在宪法被误用、忽视或导致意外结果的情况?找出空白/缺陷: 使用红队测试等技术(见第7章)专门探查弱点,并找出宪法未能阻止不良输出的提示或情况。完善原则: 根据观察到的缺陷,通过增加新原则、澄清现有原则、移除无效原则或解决冲突来更新宪法。这种迭代循环对于开发出真正能在实践中发挥作用的宪法而言,是不可或缺的。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#4263eb", fontcolor="#495057"]; edge [color="#adb5bd"]; Define [label="1. 定义初始\n原则"]; Implement [label="2. 在CAI系统中\n实施"]; Evaluate [label="3. 评估模型\n行为(红队)"]; Identify [label="4. 找出缺陷\n与漏洞"]; Refine [label="5. 完善/更新\n宪法"]; Define -> Implement [label=" 基于\n需求", fontsize=10]; Implement -> Evaluate [label=" 观察\n输出", fontsize=10]; Evaluate -> Identify [label=" 分析\n结果", fontsize=10]; Identify -> Refine [label=" 处理\n不足", fontsize=10]; Refine -> Define [label=" 纳入\n改变", style=dashed, fontsize=10]; Refine -> Implement [label=" 重新部署\n更新规则", style=dashed, fontsize=10]; }宪法开发和改进的迭代完善周期。评估AI行为的反馈直接用于原则的更新。宪法设计中的挑战一些固有的挑战使得设计过程复杂化:原则冲突解决: 如前所述,原则可能相互冲突。优先级方案(例如,“安全原则优先于有用性原则”)可能是必要的,但难以可靠地实施。AI需要理解并应用这种优先次序。隐性知识: 宪法依赖于评判AI拥有大量的背景知识和推理能力,以便在不同情境中正确解释和应用原则。原则无法明确涵盖人类价值观或知识的每个细节。规范游戏: 模型可能会学习满足原则的字面表述,同时却违反其潜在意图。例如,一个被告知“避免表达意见”的模型,如果答案可能被 解读 为意见,它可能会拒绝回答事实性问题,变得无益地回避。可扩展性: 管理并确保大量复杂原则的一致性变得越来越困难。普适性与具体性: 制定既能普遍适用又足够具体可操作的原则,是一项艰难的平衡之举。过于宽泛的原则可能缺乏效力,而过于具体的原则则可能无法涵盖无法预见的情况。实质上,设计一部有效的宪法是一项应用伦理学、提示工程和系统设计的实践,它与底层LLM的能力和局限性密切相关。这需要清晰的目标、细致的措辞,以及对基于经验结果的持续评估和完善的投入。这份精心制作的宪法随后构成了CAI监督学习阶段的依据,我们将在下文讨论这一阶段。