趋近智
所有课程
6.1 直接偏好优化 (DPO)
6.2 基于AI反馈的强化学习 (RLAIF)
6.3 提升RLHF中的样本效率
6.4 明确处理奖励欺诈
6.5 多目标奖励模型
6.6 上下文和条件式RLHF
6.7 实践:PPO与DPO方法的比较
© 2025 ApX Machine Learning