趋近智
动态规划方法非常依赖于拥有一个完整的环境模型。这些方法要求了解状态转移概率 来计算期望值并找到最优策略。然而,在许多实际问题中,这样的模型不可得,或者过于复杂而难以精确描述。代理如何在不知道游戏规则的前提下,学会做出好的决策呢?
蒙特卡洛(MC)方法通过直接从经验中学习来提供解决方案。MC 方法不依赖于模型,而是通过与环境交互并观察结果来学习价值函数和策略。对于基本的 MC 方法来说,经验的基本单位是回合。
回合是从初始状态开始并终止于终止状态的一系列交互。可以将其视为一次任务的完整执行。例如:
每个回合都包含一系列状态、动作和奖励:,这里 是最终时间步, 是终止状态。
蒙特卡洛方法的核心思想很简单:它们基于在许多回合中访问某个状态(或状态-动作对)后观察到的平均回报来估计价值函数。它们的工作方式是等待整个回合完成。只有这样,才能计算出该回合中访问的每个状态之后的实际回报。
回顾回报 的定义,它是从时间步 开始的总折扣奖励:
这里, 是折扣因子 (), 是回合的终止时间步。
因为 MC 方法需要直到回合终止的完整奖励序列才能计算 ,它们只能直接应用于回合型任务,即那些保证最终会终止的任务。
一旦一个回合结束,我们就会得到一个 元组的样本序列。接着,我们可以回溯计算该回合中每个时间步 的观测回报 。如果我们想估计状态价值函数 ,我们会查看状态 在许多回合中被访问过的所有时刻。对于每一次访问,我们都会计算随之而来的回报 。 的估计值就是这些观测回报的平均值。类似地,要估计动作价值函数 ,我们对在状态 中执行动作 后观察到的回报取平均值。
这个过程依赖于大数定律:随着我们收集越来越多的回合(即更多的样本),样本回报的平均值会收敛到真实的期望回报,这正是价值函数的定义。
这种方法与动态规划形成鲜明对比。动态规划方法使用环境模型 () 进行自举,即基于其他一步之遥的价值估计来更新价值估计。另一方面,MC 方法不进行自举。它们使用从经验中观测到的实际完整回报 。这种不依赖模型是一个重要优点,但这也意味着我们必须等到回合结束才能进行任何更新。
在接下来的章节中,我们将探讨这种从完整回合中学习的原理,如何应用于预测价值(为给定策略 估计 或 )以及寻找最优策略(控制)。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•