在上一章中,我们使用马尔可夫决策过程 (MDP) 对序列决策问题进行了形式化。我们定义了状态、动作、奖励,以及最大化未来累积奖励(回报)的目标。一个核心思想是值函数,它量化了智能体在遵循策略 $\pi$ 时,处于特定状态 ($V^{\pi}(s)$) 或在某个状态采取特定动作 ($Q^{\pi}(s,a)$) 的优劣程度。本章将着重介绍计算这些值函数的方法。我们将引入贝尔曼方程,它根据后继状态的期望值来表示状态或状态-动作对的价值。这些方程构成了许多强化学习算法的依据。具体来说,您将学到:贝尔曼期望方程,它递归地关联了策略 $\pi$ 的值函数与自身。贝尔曼最优方程,它定义了最优策略 $\pi^*$ 的值函数。动态规划 (DP) 方法,特别是策略迭代和值迭代,它们在*给定环境完整模型(MDP)*的情况下,能够计算最优策略和值函数。动态规划的局限性,特别是它对已知模型的依赖,这为后续章节讨论的无模型方法提供了理由。学完本章,您将明白当环境动态完全已知时,如何从理论上计算最优值函数和策略。