我们已经明确了如何使用马尔可夫决策过程(MDP)来建模序列决策问题,以及如何使用其价值函数 $V^\pi(s)$ 和 $Q^\pi(s, a)$ 来评估某个既定策略 $\pi$。请记住,$V^\pi(s)$ 代表从状态 $s$ 开始并遵循策略 $\pi$ 的期望回报,而 $Q^\pi(s, a)$ 则是从状态 $s$ 开始,采取动作 $a$,随后遵循策略 $\pi$ 的期望回报。求解 MDP 的最终目标不仅仅是评估任意策略,而是找到最优策略。“最优”指的是什么?在强化学习和 MDP 的背景下,它指的是最大化期望的累积折扣回报。我们将这样的策略称为最优策略,通常表示为 $\pi^*$。正式来说,如果策略 $\pi$ 的期望回报对于所有状态 $s \in S$ 都大于或等于任何其他策略 $\pi'$ 的期望回报,那么它就被认为是最佳的。$$V^\pi(s) \ge V^{\pi'}(s) \quad \text{对于所有 } s \in S \text{ 和所有策略 } \pi'$$需要指出的是,可能存在不止一个最优策略,但它们都能实现最大可能的期望回报。所有最优策略共享相同的最优状态价值函数,表示为 $V^$,以及相同的最优动作价值函数,表示为 $Q^$。这些最优价值函数定义如下:$$V^*(s) = \max_{\pi} V^\pi(s) \quad \text{对于所有 } s \in S$$$$Q^*(s, a) = \max_{\pi} Q^\pi(s, a) \quad \text{对于所有 } s \in S, a \in A$$$V^(s)$ 给出从状态 $s$ 开始可以达到的最大期望回报,无论随后遵循哪种特定的最优策略。类似地,$Q^(s, a)$ 给出从状态 $s$ 开始,采取动作 $a$,然后此后遵循最优策略可以达到的最大期望回报。最优价值函数与最优策略之间的联系最优动作价值函数 $Q^$ 与最优策略 $\pi^$ 之间存在直接而有力的关联。如果您知道了真实的 $Q^$ 函数,找到最优策略将会很简单。您只需在每个状态 $s$ 中选择使 $Q^(s, a)$ 最大化的动作。一个对于最优动作价值函数 $Q^*$ 采取贪婪行动的策略,保证是一个最优策略。因此,最优策略 $\pi^*$ 可以定义为:$$\pi^(s) = \arg\max_{a \in A} Q^(s, a)$$这意味着在状态 $s$ 中,最优策略根据 $Q^*$ 选择产生最高期望回报的动作 $a$。如果多个动作具有相同最大值,最优策略可以选择其中任何一个。贝尔曼最优方程正如任意策略 $\pi$ 的价值函数满足贝尔曼期望方程一样,最优价值函数 $V^$ 和 $Q^$ 也满足它们自己特定的贝尔曼方程,即贝尔曼最优方程。这些方程为最优价值提供了一种递归定义。$V^*$ 的贝尔曼最优方程是:$$V^(s) = \max_{a \in A} Q^(s, a)$$ $$V^(s) = \max_{a \in A} \sum_{s' \in S} P(s'|s, a) [R(s, a, s') + \gamma V^(s')]$$该方程表达了状态 $s$ 的最优价值必须等于从该状态采取最好的可能动作 $a$ 并此后遵循最优策略所获得的期望回报。max 运算符表示智能体选择使后续期望价值最大化的动作。类似地,$Q^*$ 的贝尔曼最优方程是:$$Q^(s, a) = \sum_{s' \in S} P(s'|s, a) [R(s, a, s') + \gamma V^(s')]$$ 由于 $V^(s') = \max_{a' \in A} Q^(s', a')$,我们可以写成: $$Q^(s, a) = \sum_{s' \in S} P(s'|s, a) [R(s, a, s') + \gamma \max_{a' \in A} Q^(s', a')]$$该方程表明,在状态 $s$ 中采取动作 $a$ 的最优价值是期望即时回报 $R(s, a, s')$ 加上下一个状态 $s'$ 的折扣期望价值,前提是智能体从该下一个状态开始最优地行动($ \max_{a'} Q^*(s', a') $)。这些最优方程是根本的。如果我们能找到一个价值函数 $V$ 或 $Q$ 满足相应的贝尔曼最优方程,那么该价值函数就是最优价值函数($V^$ 或 $Q^$),我们就可以从中推导出最优策略。求解 MDP 本质上意味着找到 $V^$ 或 $Q^$。尽管贝尔曼最优方程定义了这些函数,但它们不直接提供求解方法,尤其因为它们通常形成一个非线性方程组。下一章将介绍基于动态规划的算法,例如价值迭代和策略迭代,这些算法旨在计算这些最优价值函数,前提是我们拥有 MDP 的完整模型(即,我们知道转移概率 $P$ 和回报函数 $R$)。随后的章节将研究如何在模型不可用的情况下找到最优策略。