趋近智
依据宪法AI的理论研究,宪法()是规范大型语言模型行为的原则编码集合。从理论到实践,需要将这些原则转化为一种格式,以便在监督学习 (supervised learning)阶段,AI批评者模型和修正模型能够通过程序访问和使用。本节侧重于构建和准备这份基础文件的实际步骤。
主要目标是创建的一种表示形式,既便于人工阅读以进行迭代,又便于机器解析以集成到CAI流程中。虽然简单的纯文本文件可能足以应对基础情况,但YAML或JSON等更结构化的格式为复杂的宪法提供了显著的好处,有助于更轻松地解析、验证以及程序化访问单个原则。
一份结构良好的宪法文件对于有效生成批评是必不可少的。高层次的道德陈述必须分解为更具体、可操作的指南,供AI模型理解和使用。请考虑以下方面:
PRINCIPLE_HARMFUL_CONTENT_01)。这使得批评者模型能够明确引用给定回复违反了哪些原则,为修正模型提供更有针对性的反馈,并有助于后续分析和调试。诸如“避免偏见或歧视性言论”这样的高层次原则,可以分解为更细致、可标识的规则:
AVOID_STEREOTYPES_GENDER: 不要基于性别认同或表达做出概括性陈述或表达刻板印象。AVOID_STEREOTYPES_RACE: 不要基于种族或民族做出概括性陈述或表达刻板印象。AVOID_DEMEANING_LANGUAGE: 不要使用基于受保护特征来侮辱、贬低或边缘化任何群体或个人的语言。ENSURE_NEUTRAL_TONE_GROUPS: 在讨论不同人口群体时,保持中立、客观和尊重的语气。这种分解使得批评者模型能够准确指出具体问题,而不是提供一个泛泛的“偏见”批评。
选择合适的格式会影响宪法在自动化工作流中管理、版本控制和集成的便利程度。
以下是一个使用YAML的简化示例,说明了结构、ID和可选元数据:
# 宪法 v1.2 - 辅助AI助手的指导原则
# 日期: 2024-07-27
schema_version: 1.0
principles:
- id: HARM_AVOIDANCE_GENERAL
category: 安全
severity: 严重
text: "AI不得提供可能直接导致重大身体、情感或经济损害的指令或内容。"
sub_principles:
- id: HARM_AVOIDANCE_ILLEGAL_ACTS
text: "不生成描述详细步骤或明确宣扬非法行为(例如盗窃、非法物质制造)的内容。"
rationale: "防止助长犯罪。"
- id: HARM_AVOIDANCE_DANGEROUS_ITEMS
text: "拒绝创建武器、爆炸物、危险化学品或其他固有危险物品的指令请求。"
rationale: "防止造成身体伤害。"
- id: HONESTY_FACTUAL_ACCURACY
category: 真实性
severity: 高
text: "提供模型知识库中尽可能准确的信息。如果信息不确定或变化迅速,请说明不确定性或缺乏实时数据。"
- id: BIAS_REDUCTION_STEREOTYPES
category: 公平性
severity: 中
text: "避免生成依赖或延续基于种族、性别、宗教、国籍、残疾或性取向等特征的有害刻板印象的回复。"
sub_principles:
- id: BIAS_REDUCTION_GENDER_ROLES
text: "不强化传统或限制性别的角色刻板印象(例如,假设职业与性别相关联)。"
example_violation: "假设所有护士都是女性,所有工程师都是男性的回复。"
- id: BIAS_REDUCTION_RACIAL_PROFILING
text: "不将固有特质、行为或活动与特定种族或族裔群体相关联。"
示例结构,展示了使用YAML格式的宪法文件的一个部分。它包含唯一ID、类别、严重程度、描述性文本、子原则以及可选的理由或示例。
结构化的宪法文件不仅仅是一个静态文件;它积极地为AI批评者提供信息。需要有效的提示工程 (prompt engineering)来指导AI如何将这些原则应用于给定的LLM回复。
常用策略包括:
直接包含: 对于规模较小的宪法,可以将全部文本(或相关子集)直接包含在提供给批评者模型的提示中。这使得上下文 (context)清晰明确。
通过ID引用: 在提示中提供指令,告诉批评者根据“宪法v1.2”中定义的原则进行评估(假设批评者能够访问该文件或其解析后的表示)。提示可能会要求其输出违反原则的ID。
指令格式: 在提示中使用清晰、结构化的指令。例如: “你是一个AI批评系统。根据下面‘宪法’部分列出的原则评估以下‘回复’。通过其唯一的‘id’识别所有违反的原则。对于每次违反,提供一个简短的解释,引用回复内容和原则文本。如果没有违反任何原则,则说明‘没有违反’。
宪法:
# (在此处放置相关YAML内容)
回复:
[待批评的LLM回复]
批评:”
动态选择(高级): 对于非常大的宪法,可实现逻辑来动态选择并仅包含与输入提示或生成回复最相关的原则(例如,基于主题建模或关键词匹配)。这缩短了提示长度并使批评更具针对性,但增加了系统复杂度。
宪法是“活”的文件。随着您在使用CAI系统的过程中获得经验、发现漏洞、遇到新型问题输出或适应不断变化的社会规范或法规,宪法将需要更新。严格的版本控制(例如,使用Git)是必不可少的。
建立宪法文件需要仔细考虑其结构、清晰度、格式以及与自动化流程的集成。一份精心设计的宪法是LLM所需行为的精确、机器可执行规范,它构成了宪法AI流程的操作核心。随后的章节将在此核心基础上,详细说明该文件如何促进AI批评和修正的生成。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•