CAI框架的局限性与评析

尽管宪法式AI (CAI) 提出了一种新颖方法，可通过借助AI自我批评和基于预设原则的修订来扩展对齐 (alignment)，但它也存在自身的挑战与限制。了解这些对于有效应用和思考CAI系统是必要的。

宪法设计与解读

CAI的效能很大程度上取决于宪法本身的质量和制定方式。这里出现了一些问题：

模糊性与主观性： 制定普遍适用、明确且机器可理解的原则极其困难。“有害”、“不道德”或“公平”之类的表述本质上是主观的，且依赖于语境。AI批评器可能会错误解读这些原则，或在应用时出现不一致，从而导致模型产生意外或不合预期的行为。例如，一条“避免生成误导性内容”的原则，在创意写作或事实报告等不同语境下，可能会有不同的解读。
不完整性与未预见后果： 几乎不可能预料到大型语言模型可能产生的所有潜在故障模式或不合预期的输出。宪法很可能是不完整的，会留下可能被利用的漏洞，或导致未明确禁止的有害结果。此外，原则之间的相互作用可能导致未预见的负面后果，即严格遵守一条原则可能无意中以不易察觉的方式违反另一条原则。
脆弱性与敏感性： AI的解读对宪法原则的精确措辞高度敏感。措辞上的微小变化可能导致最终行为的显著改变，使得宪法变得脆弱且难以可靠地调整。这需要仔细验证和迭代改进，而这可能消耗大量资源。
维护与治理： 宪法并非一成不变的文件。它们需要与社会规范、技术能力以及已识别的模型漏洞同步演变。这带来了重要的治理挑战：谁来决定这些原则？更新如何提议、验证和实施？共识如何达成，尤其是对于具有广泛社会影响的原则？

AI批评器和修订模型的局限性

CAI的核心机制依赖于其他AI模型（批评器和修订器）来执行宪法。这些模型引入了自身潜在的故障点：

忠实性与理解： 一个重要担忧是，批评器和修订模型是真正理解宪法原则背后的意图，还是仅仅学习了输入/输出中某些模式与所需批评/修订之间的表面关联。这些模型可能学会了“看起来”在遵守宪法，但并未牢固内化这些原则，这可能导致它们在全新情况或对抗性压力下失效。训练期间的表面遵守与真正泛化之间的这种差距是一个持续的挑战。
能力要求： 为使CAI有效，批评器和修订模型必须具备复杂的推理 (inference)能力，可以说在道德/原则推理这一具体范畴上，其能力需至少与被对齐 (alignment)模型相当，甚至更强。如果基础模型远比提供反馈的模型先进，那么批评可能肤浅或容易被规避。这形成了一个依赖循环，即对齐更强大的模型需要更强大的（且可能未对齐的）批评器模型。
偏见传播与放大： 用于批评和修订的AI模型本身经过大量数据集训练，并可能继承甚至放大现有社会偏见。如果宪法由一个有偏见的批评器应用，那么最终的“对齐”模型可能只是以结构化方式反映这些偏见，从而可能使其看起来更具合理性。宪法本身由人类撰写，也可能编码其创建者的偏见。

CAI监督学习 (supervised learning)循环中偏见传播和解读问题的潜在路径。

监督学习 (supervised learning)阶段的挑战

生成批评和修订以创建监督微调 (fine-tuning)（SFT）数据集的过程也面临一些障碍：

"* 分布不匹配： 通过自我批评过程生成的数据（提示、初始输出、批评、修订）可能无法准确反映模型在部署中或随后的强化学习 (reinforcement learning)（RL）微调阶段（如RLAIF）中将遇到的输入分布。这种分布偏移会限制CAI SFT阶段的有效性，因为所学对齐 (alignment)可能无法很好地泛化。"

自我修正的计算成本： 尽管CAI减少了每个实例的人工直接标注，但在数百万个示例上生成高质量的AI批评和修订的计算成本很高。这需要对可能的大型语言模型（批评器、修订器和原始模型）进行多次推理 (inference)，相比标准SFT显著增加了计算开销。
质量与数量的权衡： 在生成大量可能质量较低的批评/修订数据集与生成较小但经过精心验证或更高置信度示例的数据集之间存在权衡。如何优化这种平衡以实现有效学习，这仍然是有待研究的方面。

与后续对齐 (alignment)阶段的衔接

CAI常被定位为第一阶段（SL-CAI），随后可能接续强化学习 (reinforcement learning)（RL-CAI或RLAIF）。这种整合引入了更多复杂性：

对齐冲突与价值漂移： 通过CAI SFT阶段编码的原则可能与后续RL阶段（例如RLAIF）中学到的偏好冲突。由可能不完美的、源自AI偏好的奖励模型驱动的RL优化过程，可能会无意中使模型偏离最初的宪法指引，导致价值漂移。确保宪法与RL奖励信号之间的一致性并非易事。
调试复杂性： 调试一个涉及CAI和RL的多阶段流程，比单独分析任一技术要复杂得多。确定不良表现是源于有缺陷的宪法、无效的批评器、SFT阶段的问题、RL中的奖励欺骗，还是阶段间的不对齐，这需要复杂的评估技术。

根本性考量

除了技术实施挑战之外，CAI还带来更深层的问题：

对齐 (alignment)成本： 强制遵守预设宪法是否本质上限制了模型的创造力、问题解决能力，或其在与宪法不直接相关的任务上的表现？可能存在一种不可避免的“对齐成本”，即强制执行安全或道德原则会以牺牲某些方面的原始能力为代价。量化 (quantization)和管理这种权衡很重要。
谁的价值观？ 宪法中原则的选择和编码代表着一种强大的价值强加行为。谁的价值观正在被编码？我们如何确保宪法设计过程中的公平性、代表性和合法性，特别是对于旨在全球部署的模型？这仍然是AI伦理与治理方面的一个主要且有待解决的挑战。

综上所述，尽管宪法式AI为可扩展对齐提供了一个有前景的方向，但实践者必须敏锐地意识到其在宪法设计、AI反馈模型的能力和忠实性、偏见放大可能性以及将其整合到更广泛对齐流程中的复杂性方面的局限。它代表着对齐问题的一个转变，以直接人工标注瓶颈为代价，换来了原则工程、AI能力对齐和治理方面的挑战。

这部分内容有帮助吗？

参考文献

Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan, 2022 arXiv preprint arXiv:2212.08073 DOI: 10.48550/arXiv.2212.08073 - 介绍了宪法级AI框架、其设计与目标，为理解其局限性提供了必要背景。
On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?, Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell, 2021 Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (Association for Computing Machinery) DOI: 10.1145/3442188.3445922 - 审视了大型语言模型在偏见传播、缺乏基础性理解以及编码人类价值观方面的根本局限，直接说明了宪法设计和AI批评者可靠性方面的挑战。
Ethical and Social Risks of Harm from Language Models, Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac, Sean Legassick, Geoffrey Irving, Iason Gabriel, 2021 arXiv preprint arXiv:2112.04359 DOI: 10.48550/arXiv.2112.04359 - 概述了大型语言模型相关的伦理和社会风险，为理解宪法设计难度及偏见如何在AI系统中传播提供了背景。
Training language models to follow instructions with human feedback, Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Gray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe, 2022 Advances in Neural Information Processing Systems, Vol. 35 - 描述了通过人类反馈训练语言模型的过程，该过程支持与CAI集成的后续对齐阶段。它强调了遵循指令、奖励模型限制以及潜在对齐冲突方面的挑战。