趋近智
所有课程
3.1 偏好学习的思路
3.2 人类偏好数据收集
3.3 偏好数据集的格式与结构
3.4 奖励模型架构
3.5 奖励模型训练目标
3.6 奖励模型校准
3.7 奖励模型中可能出现的问题
3.8 动手实践:训练奖励模型
© 2025 ApX Machine Learning