趋近智
基于模型的强化学习 (reinforcement learning)包含多种方法,但它们都共享之前介绍的核心思想:学习环境模型,然后使用该模型辅助决策。然而,模型的学习方式和后续使用方式可能存在显著差异。理解这些区别对于为特定问题选择正确的方法很重要。我们可以从几个方面对基于模型的方法进行分类。
第一个主要区别在于模型是明确给出,还是需要从经验中学习;如果需要学习,它又是如何表示的。
已知模型: 在某些场景下,尤其是在经典规划问题或模拟中,我们可能已经拥有一个准确的环境动态模型()和奖励函数()。如果已知一个完善的模型,问题就简化为规划。像值迭代或策略迭代这样的方法可以直接计算最优值函数和策略,而无需与(真实)环境进行任何进一步的交互。虽然这在实际的强化学习 (reinforcement learning)设置中通常不是这样,但使用已知模型进行规划可作为理论基准,并且是理解使用学习所得模型的方法的根本所在。
学习所得模型: 这是强化学习中更常见、更具挑战性的情况。智能体必须从它通过交互收集的数据()中估计环境的动态和奖励。这种学习所得模型的结构有所不同:
一旦模型(无论是给定的还是学习所得的)可用,下一个问题是智能体如何使用它。
为免模型更新模拟经验(背景规划): 学习所得模型充当模拟器,生成额外的“想象”经验 。然后,这些模拟数据被输入到标准免模型强化学习 (reinforcement learning)算法(如Q学习或SARSA)中,仿佛是真实经验一样。这使智能体能够执行额外的更新,并可能比仅依赖真实交互学习得更快或更具样本效率。我们不久将考察的Dyna-Q算法就是这种方法的典型例子。它交织真实交互、模型学习和规划(模拟更新)。
决策时规划(前瞻搜索): 模型在智能体需要选择动作的那一刻被明确用于规划。智能体从当前状态开始,针对各种动作序列模拟潜在的未来轨迹,使用学习所得模型(以及可能学习所得的值函数)评估结果,并选择导致最佳预测结果的动作。
通过模型梯度直接优化策略: 如果学习所得模型是可微分的(例如,神经网络 (neural network)),并且奖励函数是已知或可微分地学习所得的,那么可以通过反向传播 (backpropagation)穿过学习所得的动态模型来计算预期回报相对于策略参数 (parameter)的梯度。这允许使用梯度上升直接优化策略,如果模型准确,可能会带来高效的学习。然而,这种方法对模型误差敏感,因为模型梯度中的不准确性可能使策略优化偏离方向。
混合方法: 许多先进技术结合了这些思想。例如,基于模型的预测可能会告知免模型更新(如Q学习)中使用的目标,或者通过免模型方法学习的值函数可能会用于评估基于模型规划期间达到的状态(如AlphaZero)。
下图说明了基于模型强化学习的一般流程,强调了模型学习和使用所处的位置。
该图说明了智能体组件与环境之间的关系。收集真实经验,既用于直接的免模型更新(灰色虚线),也用于学习模型(橙色线)。然后,学习所得的模型被规划组件(绿色线)使用,要么生成模拟经验来更新策略/值函数(绿色虚线,Dyna-Q风格),要么通过前瞻搜索直接指导动作选择(蓝色虚线,MCTS/MPC风格)。
这种分类提供了一个理解基于模型强化学习中不同理念的框架。在接下来的章节中,我们将考察Dyna-Q等特定算法,并考察MCTS等规划方法的整合。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•