趋近智
尽管人类反馈强化学习 (reinforcement learning)(RLHF)为LLM对齐 (alignment)提供了一个重要框架,并在上一章中有所讨论,但这只是可用工具集的一部分。本章介绍其他一些高级对齐算法,它们提供了替代机制或解决了标准RLHF遇到的特定难题。
你将了解:
我们将考察这些方法的具体运行方式,比较它们的相对优缺点,并通过实际练习,例如实现核心DPO损失计算,让你能运用它们。这将让你对指导LLM发展的可用技术有更全面的理解。
3.1 宪法式AI:原理与实践
3.2 基于AI反馈的强化学习 (RLAIF)
3.3 直接偏好优化 (DPO)
3.4 对齐中的对比方法
3.5 迭代式增强与辩论
3.6 对齐方法对比分析
3.7 实践:实现DPO损失函数