趋近智
本章在模型运用全参数更新和高效技术进行调整的方法之上,侧重于更复杂的微调场景。
您将学习到在一个模型上训练多个目标(多任务微调)以及按顺序更新模型并管理知识保留(序列式调整)的策略。
我们将介绍旨在应对灾难性遗忘的方法,帮助模型在引入新数据或新目标时,保持在先前学习过的任务上的性能。此外,本节介绍人类反馈强化学习 (RLHF)。我们将阐述其主要组成部分:训练奖励模型,rϕ(x,y),以获取偏好,以及使用策略优化算法,例如近端策略优化 (PPO),根据这些偏好调整语言模型,πθ(y∣x)。这些技术是调整大型语言模型行为以满足特定需求的进阶方法。
5.1 多任务微调
5.2 顺序适应与持续学习
5.3 减轻灾难性遗忘
5.4 人类反馈强化学习 (RLHF) 介绍
5.5 奖励模型训练
5.6 使用 PPO 进行策略优化
5.7 高级适应中的挑战
© 2026 ApX Machine Learning用心打造