贝尔曼期望方程为特定给定策略π下的价值函数(Vπ)和动作价值函数(Qπ)提供了一个递归关系。该方程有助于确定遵循特定策略时的预期回报。然而,在许多强化学习问题中,主要目标不仅仅是评估某个策略,而是找到最优策略,即获得最大累积奖励的策略。
为了找到这个最优策略,我们需要一种方式来描述与之关联的价值函数。这引出了贝尔曼最优方程。这些方程定义的价值函数不是针对任意策略π,而是针对最优策略π∗。
最优价值函数:V∗ 和 Q∗
首先,我们来定义最优价值函数是什么。最优状态价值函数,表示为V∗(s),代表从状态s开始,并随后遵循任意策略可达到的最大预期回报。类似地,最优动作价值函数Q∗(s,a),是在状态s采取动作a后,再遵循最优策略可达到的最大预期回报。
从数学上讲,它们被定义为:
V∗(s)=maxπVπ(s)
Q∗(s,a)=maxπQπ(s,a)
这些函数表示给定MDP性能的上限。
贝尔曼最优方程(针对 V∗)
贝尔曼最优方程(针对V∗)表达了一个观点,即状态s的最优价值必须等于在该状态下采取最优动作a,然后从产生的状态s′继续最优行为所获得的预期回报。它包含一个对动作的求最大化步骤,这与根据策略π求平均的期望方程不同。
该方程是:
V∗(s)=maxa∈A(s)∑s′,rp(s′,r∣s,a)[r+γV∗(s′)]
我们来分解一下:
- maxa∈A(s): 我们考虑状态s中所有可能的动作a,并选择能使预期回报最大化的动作。
- p(s′,r∣s,a): 这是在状态s采取动作a后,转移到状态s′并获得奖励r的概率。这表示环境的动态特性。
- r: 在状态s采取动作a后立即获得的奖励。
- γ: 折扣因子,用于平衡即时奖励和未来奖励。
- V∗(s′): 下一个状态s′的最优价值。这个递归部分假设我们将从状态s′开始持续最优地行动。
这个方程表明,在最优策略下,一个状态的价值是从该状态采取最优动作所获得的预期回报。
贝尔曼最优方程(针对 Q∗)
类似地,我们可以定义针对最优动作价值函数Q∗的贝尔曼最优方程。在状态s采取动作a的最优价值是预期即时奖励r加上在下一个状态s′采取最优可能动作a′的折扣预期价值。
该方程是:
Q∗(s,a)=∑s′,rp(s′,r∣s,a)[r+γmaxa′∈A(s′)Q∗(s′,a′)]
以下是分解:
- ∑s′,rp(s′,r∣s,a)[…]: 我们对所有可能的下一个状态s′和奖励r进行求和,并根据它们的转移概率加权。
- r: 即时奖励。
- γ: 折扣因子。
- maxa′∈A(s′)Q∗(s′,a′): 这是重要部分。转移到状态s′后,我们假设将选择能产生最高最优动作价值Q∗(s′,a′)的动作a′。这表示从下一个状态开始持续最优地行动。
请注意V∗和Q∗之间的关系。一个状态的最优价值就是从该状态采取最优动作的价值:
V∗(s)=maxaQ∗(s,a)
将此代入Q∗的贝尔曼最优方程,得到另一种形式:
Q∗(s,a)=∑s′,rp(s′,r∣s,a)[r+γV∗(s′)]
寻找最优策略
贝尔曼最优方程很具意义,因为如果我们能求解它们以找到V∗或Q∗,我们就能轻易地确定最优策略π∗。具体来说,如果我们有Q∗(s,a),最优策略就是对每个状态中的Q∗采取贪婪行为:
π∗(s)=argmaxa∈A(s)Q∗(s,a)
这意味着在状态s中,最优策略π∗选择能使最优动作价值函数Q∗(s,a)最大化的动作a。如果我们只有V∗,我们仍然可以通过向前看一步,利用动态特性p(s′,r∣s,a)来找到最优动作:
π∗(s)=argmaxa∈A(s)∑s′,rp(s′,r∣s,a)[r+γV∗(s′)]
最优性与期望
将贝尔曼最优方程与贝尔曼期望方程区分开来很重要。
- 期望方程: 描述给定策略π的价值。它们涉及基于π所指示的动作的期望值。
- 最优方程: 描述最优策略π∗的价值。它们涉及一个对动作的求最大化步骤,在每个阶段选择最优动作。
最优方程定义了一个非线性方程组。与期望方程(对于固定策略是线性的)不同,直接求解最优方程可能更复杂。然而,它们构成了诸如价值迭代等算法的基础,我们将在下文进行讨论,这些算法旨在当环境模型可用时找到这些最优价值。这些方程体现了在MDP中找到最佳行为方式的核心思想。