趋近智
学习环境动态 (Pθ(s′∣s,a)) 和奖励函数 (Rϕ(s,a,s′)) 的方法可用于决策。虽然简单的轨迹采样能提供一些益处,但将习得模型与蒙特卡洛树搜索(MCTS)这类强效规划算法整合,能为前瞻规划提供更有条理的方式,可能带来明显更强的策略。
MCTS擅长处理大的搜索空间,它通过在模拟轨迹中智能地平衡探索与利用。在其传统应用中(如游戏),MCTS依赖于一个完美的模拟器或环境的生成模型。在模型基强化学习中,我们用习得的、近似的模型替代这个完美的模拟器。这使得智能体能利用其内在理解来“向前思考”,即使这种理解并非完美。
MCTS的核心过程保持不变,它由重复多次的四个步骤组成,用于构建一个以当前状态 st 为根的搜索树:选择、扩展、模拟和反向传播。习得模型的主要整合点在扩展和模拟步骤中。
选择: 从根节点(代表当前状态 st)开始,根据树策略递归选择子节点,直到达到叶节点。常用的树策略是UCT(树上置信上限),它平衡了对估计值高的节点 Q(s,a) 的利用和对访问次数少的节点 N(s,a) 的尝试。选择过程本身不直接使用习得的动态模型,但依赖于通过确实使用了模型的模拟来更新的值。
扩展: 当选择过程到达代表状态 sL 的叶节点 L 时,如果状态不是终止状态,并且节点尚未完全扩展(即并非所有动作都已尝试过),则选择一个未尝试的动作 a。使用习得的转移模型 Pθ(s′∣sL,a) 来采样一个可能的下一个状态 s′。创建一个代表 s′ 的新子节点。这是习得模型决定正在构建的搜索树结构的重要环节。如果 Pθ 是确定性的,则只有一个 s′; 如果是概率性的,我们采样一个结果。
模拟(Rollout): 从新扩展的节点(状态 s′)开始,执行模拟或“Rollout”直到达到终止状态或预设的最大深度。此模拟通过重复以下步骤进行:
反向传播: 使用模拟结果 G 更新从新扩展节点到根节点路径上所有节点的统计数据(访问次数 N 和值估计 Q)。对于路径上因采取动作 a 而到达的状态 s 对应的节点,更新 N(s,a) 和 Q(s,a)。通常,Q(s,a) 会根据从状态 s 采取动作 a 后观察到的平均回报进行更新:
N(s,a)←N(s,a)+1 Q(s,a)←Q(s,a)+N(s,a)G−Q(s,a)在重复执行这四个步骤多次后(计算预算通常以模拟次数或时间来衡量),智能体选择在环境中执行一个动作。这通常是与根节点访问次数最多的子节点对应的动作,因为访问次数常作为搜索找到最佳动作的指示。
运用习得环境模型的MCTS循环。习得的转移模型 Pθ 在扩展和模拟期间决定状态转移。习得的奖励模型 Rϕ 在模拟期间提供奖励。
将MCTS与习得组件整合方面的一项重要进展来自AlphaGo及其后续AlphaZero等系统。这些系统不再仅仅依靠随机“Rollout”进行模拟步骤和简单的UCT进行选择/扩展,而是使用与MCTS规划同步训练的神经网络:
这些网络通常使用MCTS搜索本身生成的数据进行训练。MCTS的访问次数作为策略网络的训练目标(鼓励其预测MCTS更多尝试的动作),而MCTS搜索的最终结果(通常是源自搜索结果的改进价值估计)作为价值网络的目标。这创建了一个强大的反馈循环,更好的规划带来更好的网络,进而带来更优秀的规划。虽然实现这样的系统很复杂,但这展现了习得模型/函数与搜索算法之间整合的潜在程度。
将MCTS与习得模型整合有几个潜在的优点:
然而,这种方法并非没有挑战:
将MCTS与习得模型整合代表了模型基RL中一种精妙的方法。它使得智能体能够将从经验中学习的好处与树搜索提供的深思熟虑的规划能力相结合,为解决复杂的序列决策问题提供了一个强大的工具,前提是模型精度和计算成本的挑战能够有效管理。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造