贝尔曼期望方程为特定给定策略$\pi$下的价值函数($V^{\pi}$)和动作价值函数($Q^{\pi}$)提供了一个递归关系。该方程有助于确定遵循特定策略时的预期回报。然而,在许多强化学习问题中,主要目标不仅仅是评估某个策略,而是找到最优策略,即获得最大累积奖励的策略。为了找到这个最优策略,我们需要一种方式来描述与之关联的价值函数。这引出了贝尔曼最优方程。这些方程定义的价值函数不是针对任意策略$\pi$,而是针对最优策略$\pi^*$。最优价值函数:$V^$ 和 $Q^$首先,我们来定义最优价值函数是什么。最优状态价值函数,表示为$V^(s)$,代表从状态$s$开始,并随后遵循任意策略可达到的最大预期回报。类似地,最优动作价值函数$Q^(s, a)$,是在状态$s$采取动作$a$后,再遵循最优策略可达到的最大预期回报。从数学上讲,它们被定义为:$$ V^(s) = \max_{\pi} V^{\pi}(s) $$ $$ Q^(s, a) = \max_{\pi} Q^{\pi}(s, a) $$这些函数表示给定MDP性能的上限。贝尔曼最优方程(针对 $V^*$)贝尔曼最优方程(针对$V^$)表达了一个观点,即状态$s$的最优价值必须等于在该状态下采取最优*动作$a$,然后从产生的状态$s'$继续最优行为所获得的预期回报。它包含一个对动作的求最大化步骤,这与根据策略$\pi$求平均的期望方程不同。该方程是:$$ V^(s) = \max_{a \in \mathcal{A}(s)} \sum_{s', r} p(s', r | s, a) [r + \gamma V^(s')] $$我们来分解一下:$\max_{a \in \mathcal{A}(s)}$: 我们考虑状态$s$中所有可能的动作$a$,并选择能使预期回报最大化的动作。$p(s', r | s, a)$: 这是在状态$s$采取动作$a$后,转移到状态$s'$并获得奖励$r$的概率。这表示环境的动态特性。$r$: 在状态$s$采取动作$a$后立即获得的奖励。$\gamma$: 折扣因子,用于平衡即时奖励和未来奖励。$V^*(s')$: 下一个状态$s'$的最优价值。这个递归部分假设我们将从状态$s'$开始持续最优地行动。这个方程表明,在最优策略下,一个状态的价值是从该状态采取最优动作所获得的预期回报。贝尔曼最优方程(针对 $Q^*$)类似地,我们可以定义针对最优动作价值函数$Q^$的贝尔曼最优方程。在状态$s$采取动作$a$的最优价值是预期即时奖励$r$加上在下一个状态$s'$采取最优*可能动作$a'$的折扣预期价值。该方程是:$$ Q^(s, a) = \sum_{s', r} p(s', r | s, a) [r + \gamma \max_{a' \in \mathcal{A}(s')} Q^(s', a')] $$以下是分解:$\sum_{s', r} p(s', r | s, a) [\dots]$: 我们对所有可能的下一个状态$s'$和奖励$r$进行求和,并根据它们的转移概率加权。$r$: 即时奖励。$\gamma$: 折扣因子。$\max_{a' \in \mathcal{A}(s')} Q^(s', a')$: 这是重要部分。转移到状态$s'$后,我们假设将选择能产生最高最优动作价值$Q^(s', a')$的动作$a'$。这表示从下一个状态开始持续最优地行动。请注意$V^$和$Q^$之间的关系。一个状态的最优价值就是从该状态采取最优动作的价值:$$ V^(s) = \max_{a} Q^(s, a) $$将此代入$Q^*$的贝尔曼最优方程,得到另一种形式:$$ Q^(s, a) = \sum_{s', r} p(s', r | s, a) [r + \gamma V^(s')] $$寻找最优策略贝尔曼最优方程很具意义,因为如果我们能求解它们以找到$V^$或$Q^$,我们就能轻易地确定最优策略$\pi^$。具体来说,如果我们有$Q^(s, a)$,最优策略就是对每个状态中的$Q^*$采取贪婪行为:$$ \pi^(s) = \arg\max_{a \in \mathcal{A}(s)} Q^(s, a) $$这意味着在状态$s$中,最优策略$\pi^$选择能使最优动作价值函数$Q^(s, a)$最大化的动作$a$。如果我们只有$V^*$,我们仍然可以通过向前看一步,利用动态特性$p(s', r | s, a)$来找到最优动作:$$ \pi^(s) = \arg\max_{a \in \mathcal{A}(s)} \sum_{s', r} p(s', r | s, a) [r + \gamma V^(s')] $$最优性与期望将贝尔曼最优方程与贝尔曼期望方程区分开来很重要。期望方程: 描述给定策略$\pi$的价值。它们涉及基于$\pi$所指示的动作的期望值。最优方程: 描述最优策略$\pi^*$的价值。它们涉及一个对动作的求最大化步骤,在每个阶段选择最优动作。最优方程定义了一个非线性方程组。与期望方程(对于固定策略是线性的)不同,直接求解最优方程可能更复杂。然而,它们构成了诸如价值迭代等算法的基础,我们将在下文进行讨论,这些算法旨在当环境模型可用时找到这些最优价值。这些方程体现了在MDP中找到最佳行为方式的核心思想。