尽管人类反馈强化学习(RLHF)为LLM对齐提供了一个重要框架,并在上一章中有所讨论,但这只是可用工具集的一部分。本章介绍其他一些高级对齐算法,它们提供了替代机制或解决了标准RLHF遇到的特定难题。你将了解:宪法AI (Constitutional AI): 一种使用AI生成原则(或称“章程”)的方法,在微调过程中引导模型行为,目标是基于这些规则实现自我修正。AI反馈强化学习 (RLAIF): 一种与RLHF相似的方法,但用AI生成的反馈替代人类偏好标签,从而可能扩大反馈过程的规模。直接偏好优化 (DPO): 一种基于偏好数据直接优化语言模型策略的技术,从而避免了对显式奖励模型的依赖。这通常涉及一个损失函数,例如$L_{DPO}$,它从理论上与RLHF的目标存在关联。对比方法 (Contrastive Methods): 应用对比学习原理的技术,通过区分期望输出和非期望输出来提升对齐效果。理论方法 (Theoretical Strategies): 介绍迭代放大和辩论等原理,它们讨论了实现复杂对齐目标的替代方式。我们将考察这些方法的具体运行方式,比较它们的相对优缺点,并通过实际练习,例如实现核心DPO损失计算,让你能运用它们。这将让你对指导LLM发展的可用技术有更全面的理解。