建立宪法文件

依据宪法AI的理论研究，宪法（ $\mathcal{K}$ ）是规范大型语言模型行为的原则编码集合。从理论到实践，需要将这些原则转化为一种格式，以便在监督学习 (supervised learning)阶段，AI批评者模型和修正模型能够通过程序访问和使用。本节侧重于构建和准备这份基础文件的实际步骤。

主要目标是创建 $\mathcal{K}$ 的一种表示形式，既便于人工阅读以进行迭代，又便于机器解析以集成到CAI流程中。虽然简单的纯文本文件可能足以应对基础情况，但YAML或JSON等更结构化的格式为复杂的宪法提供了显著的好处，有助于更轻松地解析、验证以及程序化访问单个原则。

自动化原则的构建

一份结构良好的宪法文件对于有效生成批评是必不可少的。高层次的道德陈述必须分解为更具体、可操作的指南，供AI模型理解和使用。请考虑以下方面：

粒度： 将宽泛原则（例如，“提供帮助且无害”）细化为具体的、可检验的规则（例如，“不生成非法内容”、“避免对敏感政治话题表达观点”、“拒绝有害指令请求”）。粒度越细，通常会产生越精确的批评。
清晰度和无歧义性： 措辞原则应尽量减少AI的解释歧义。尽管完全清晰有难度，但应尽可能争取操作性定义。避免使用模糊的语言，以免批评者模型误解或难以一致应用。
标识： 为每个原则或规则分配唯一标识符（ID）或标签（例如，PRINCIPLE_HARMFUL_CONTENT_01）。这使得批评者模型能够明确引用给定回复违反了哪些原则，为修正模型提供更有针对性的反馈，并有助于后续分析和调试。
分层组织（可选）： 对于内容较多的宪法，将相关原则归入更广泛的类别（例如，安全、公平、隐私）可以提高组织性。这种结构还可能允许在批评生成过程中对宪法子集进行特定上下文 (context)的应用，从而有可能优化过程。

示例：原则分解

诸如“避免偏见或歧视性言论”这样的高层次原则，可以分解为更细致、可标识的规则：

AVOID_STEREOTYPES_GENDER: 不要基于性别认同或表达做出概括性陈述或表达刻板印象。
AVOID_STEREOTYPES_RACE: 不要基于种族或民族做出概括性陈述或表达刻板印象。
AVOID_DEMEANING_LANGUAGE: 不要使用基于受保护特征来侮辱、贬低或边缘化任何群体或个人的语言。
ENSURE_NEUTRAL_TONE_GROUPS: 在讨论不同人口群体时，保持中立、客观和尊重的语气。

这种分解使得批评者模型能够准确指出具体问题，而不是提供一个泛泛的“偏见”批评。

表示格式

选择合适的格式会影响宪法在自动化工作流中管理、版本控制和集成的便利程度。

纯文本： 最简单的方法，通常使用特定的分隔符或格式约定（例如，项目符号、编号列表）。需要自定义解析逻辑，这会随着宪法的演变而变得脆弱。主要适用于初步验证工作或非常简单的规则集。
JSON（JavaScript 对象表示法）： 提供标准的分层结构，几乎所有编程语言都能轻松解析。其严谨性强制了结构，使其非常适合包含嵌套原则、标签和相关元数据（如严重程度或示例）的复杂宪法。
YAML（YAML 不是标记 (token)语言）： 与JSON相比，通常更受青睐，因为它更便于人工阅读，尤其适用于类似配置的文件。原生支持注释，这对于用理由或示例来注释原则很有用。仍然提供结构，并且可以被Python及其他语言的标准库轻松解析。

以下是一个使用YAML的简化示例，说明了结构、ID和可选元数据：

# 宪法 v1.2 - 辅助AI助手的指导原则
# 日期: 2024-07-27

schema_version: 1.0

principles:
  - id: HARM_AVOIDANCE_GENERAL
    category: 安全
    severity: 严重
    text: "AI不得提供可能直接导致重大身体、情感或经济损害的指令或内容。"
    sub_principles:
      - id: HARM_AVOIDANCE_ILLEGAL_ACTS
        text: "不生成描述详细步骤或明确宣扬非法行为（例如盗窃、非法物质制造）的内容。"
        rationale: "防止助长犯罪。"
      - id: HARM_AVOIDANCE_DANGEROUS_ITEMS
        text: "拒绝创建武器、爆炸物、危险化学品或其他固有危险物品的指令请求。"
        rationale: "防止造成身体伤害。"

  - id: HONESTY_FACTUAL_ACCURACY
    category: 真实性
    severity: 高
    text: "提供模型知识库中尽可能准确的信息。如果信息不确定或变化迅速，请说明不确定性或缺乏实时数据。"

  - id: BIAS_REDUCTION_STEREOTYPES
    category: 公平性
    severity: 中
    text: "避免生成依赖或延续基于种族、性别、宗教、国籍、残疾或性取向等特征的有害刻板印象的回复。"
    sub_principles:
      - id: BIAS_REDUCTION_GENDER_ROLES
        text: "不强化传统或限制性别的角色刻板印象（例如，假设职业与性别相关联）。"
        example_violation: "假设所有护士都是女性，所有工程师都是男性的回复。"
      - id: BIAS_REDUCTION_RACIAL_PROFILING
        text: "不将固有特质、行为或活动与特定种族或族裔群体相关联。"

示例结构，展示了使用YAML格式的宪法文件的一个部分。它包含唯一ID、类别、严重程度、描述性文本、子原则以及可选的理由或示例。

将宪法集成到提示中

结构化的宪法文件不仅仅是一个静态文件；它积极地为AI批评者提供信息。需要有效的提示工程 (prompt engineering)来指导AI如何将这些原则应用于给定的LLM回复。

常用策略包括：

直接包含： 对于规模较小的宪法，可以将全部文本（或相关子集）直接包含在提供给批评者模型的提示中。这使得上下文 (context)清晰明确。
通过ID引用： 在提示中提供指令，告诉批评者根据“宪法v1.2”中定义的原则进行评估（假设批评者能够访问该文件或其解析后的表示）。提示可能会要求其输出违反原则的ID。
指令格式： 在提示中使用清晰、结构化的指令。例如： “你是一个AI批评系统。根据下面‘宪法’部分列出的原则评估以下‘回复’。通过其唯一的‘id’识别所有违反的原则。对于每次违反，提供一个简短的解释，引用回复内容和原则文本。如果没有违反任何原则，则说明‘没有违反’。

宪法：
```
# (在此处放置相关YAML内容)
```
回复： [待批评的LLM回复]

批评：”
动态选择（高级）： 对于非常大的宪法，可实现逻辑来动态选择并仅包含与输入提示或生成回复最相关的原则（例如，基于主题建模或关键词匹配）。这缩短了提示长度并使批评更具针对性，但增加了系统复杂度。

版本控制与维护

宪法是“活”的文件。随着您在使用CAI系统的过程中获得经验、发现漏洞、遇到新型问题输出或适应不断变化的社会规范或法规，宪法将需要更新。严格的版本控制（例如，使用Git）是必不可少的。

可追溯性： 维护清晰的记录，将宪法的特定版本（ $\mathcal{K}_{v1}, \mathcal{K}_{v2}, ...$ ）与生成的数据集（ $D_{critique\_v1}, D_{critique\_v2}, ...$ ）以及使用它们训练的模型（ $M_{SFT\_v1}, M_{SFT\_v2}, ...$ ）关联起来。这对于可复现性和调试非常重要。
影响分析： 认识到修改宪法是一项重大变化。添加、删除或实质性修改原则通常需要重新生成批评/修正数据集并重新训练SFT模型（ $M_{SFT}$ ）。如果CAI在RLAIF上游使用，这可能还需要重新训练RLAIF偏好模型和策略。
一致性： 确保CAI流程的所有组件（批评者模型提示、修正模型提示、评估基准）在任何给定的训练或评估运行期间都保持一致，并使用相同、预期的宪法版本。不匹配可能导致不可预测的行为和无效结果。

建立宪法文件需要仔细考虑其结构、清晰度、格式以及与自动化流程的集成。一份精心设计的宪法是LLM所需行为的精确、机器可执行规范，它构成了宪法AI流程的操作核心。随后的章节将在此核心基础上，详细说明该文件如何促进AI批评和修正的生成。

这部分内容有帮助吗？

参考文献

Towards a Science of Specifying AI Behavior, Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell, Anca Dragan, 2017 Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS) (NeurIPS) DOI: 10.5555/3295222.3295287 - 讨论将人类价值观和目标转化为AI系统可理解的形式化规范的挑战，与构建宪法原则相关。