第一章介绍了扩展大型语言模型对齐中固有的挑战。本章着重讲解一种提出的解决方案——宪法人工智能(CAI)的理论依据。本章阐述了CAI如何旨在依据预先设定的原则引导模型行为,从而减少对每个生成响应的人工直接反馈的依赖。您将学习到:CAI背后的核心理念。制定有效宪法的方法与考量。监督学习阶段的工作方式,即人工智能如何依据宪法批评并修正输出。CAI反馈循环的数学表达。CAI与标准指令微调方法的对比。CAI框架的潜在不足与批判性观点。到本章结束时,您将对CAI的运作方式及其设计理由有扎实的理解。