将大型语言模型(LLM)与人类意图和安全准则对齐,带来严峻的挑战,尤其随着模型能力的增强。尽管初期方法已展现出潜力,但在大规模应用或应对复杂对齐目标时遇到困难。本章审视现有技术的局限性,并阐明需要更具可扩展性的人工智能监管方法。您将了解到:监督式微调(SFT)在用于精细对齐任务时的具体不足之处。与基于人类反馈的强化学习(RLHF)相关的运行瓶颈和潜在偏见,尤其是在可扩展性方面。可扩展监管 的理念及其对于管理高级AI系统行为的必要性。将AI生成反馈纳入对齐流程中的原因。支持AI辅助对齐方法的理论基础概览,为后续关于宪法式AI和RLAIF的章节奠定基础。通过理解这些根本问题和理念,您将清晰地了解到宪法式AI和RLAIF等技术得以发展的原因以及它们旨在解决的具体问题。