趋近智
所有课程
3.1 宪法式AI:原理与实践
3.2 基于AI反馈的强化学习 (RLAIF)
3.3 直接偏好优化 (DPO)
3.4 对齐中的对比方法
3.5 迭代式增强与辩论
3.6 对齐方法对比分析
3.7 实践:实现DPO损失函数
© 2025 ApX Machine Learning