趋近智
所有课程
5.1 多任务微调
5.2 顺序适应与持续学习
5.3 减轻灾难性遗忘
5.4 人类反馈强化学习 (RLHF) 介绍
5.5 奖励模型训练
5.6 使用 PPO 进行策略优化
5.7 高级适应中的挑战
© 2025 ApX Machine Learning