趋近智
先修课程 具备高阶机器学习与深度学习知识。
级别:
RLHF流程实现
实现完整的三阶段RLHF流程:监督微调 (SFT)、奖励模型 (RM) 训练和强化学习优化。
奖励模型构建
设计、训练和评估基于人类偏好数据的奖励模型,并理解数据收集与标注。
RLHF中的PPO应用
应用与配置近端策略优化 (PPO) 在RLHF框架内专门用于大型语言模型微调,包括管理KL散度约束。
RLHF高阶方法
分析与应用高阶技术,例如直接偏好优化 (DPO)、奖励模型校准,以及提升训练稳定性的策略。
数据处理
管理人类偏好数据集,理解数据质量的影响,并实现用于RLHF的高效数据处理。
评估方法
评估经过RLHF微调的模型,结合自动化指标与人工评估规程,侧重于对齐方面。
本课程没有先修课程。
目前没有推荐的后续课程。
登录以撰写评论
分享您的反馈以帮助其他学习者。