状态值函数 Vπ(s) 和动作值函数 Qπ(s,a) 分别表示从状态 s 开始,或从状态 s 并采取动作 a 开始,并随后遵循策略 π 所获得的期望回报。需要一种方法来计算这些值。贝尔曼方程通过将状态或状态-动作对的值与其可能的后续状态的值联系起来,提供了一种计算机制。它们建立了一种递归关系,这对理解和解决强化学习问题非常重要。
贝尔曼期望方程具体描述了给定策略 π 的这种关系。它将值函数表示为即时期望奖励加上下一个状态的折扣期望值。我们来考察一下 Vπ 和 Qπ 这两种情况。
V\pi(s) 的贝尔曼期望方程
回顾状态值函数的定义:
Vπ(s)=Eπ[Gt∣St=s]
其中 Gt=Rt+1+γRt+2+γ2Rt+3+… 是从时间 t 开始的总折扣回报。我们可以将回报递归地改写为:
Gt=Rt+1+γGt+1
将此代入 Vπ(s) 的定义中:
Vπ(s)=Eπ[Rt+1+γGt+1∣St=s]
利用期望的线性性质,我们将其分为两部分:
Vπ(s)=Eπ[Rt+1∣St=s]+γEπ[Gt+1∣St=s]
为了计算这些期望,我们需要考虑智能体可能根据其策略 π(a∣s) 采取的动作,以及由环境动力学 p(s′,r∣s,a) 决定的可能产生的后续状态 s′ 和奖励 r。
第一项,Eπ[Rt+1∣St=s],是期望即时奖励。智能体首先根据 π(a∣s) 选择一个动作 a,然后环境则以根据 p(s′,r∣s,a) 的后续状态 s′ 和奖励 r 进行响应。对所有可能性求和:
Eπ[Rt+1∣St=s]=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)r
第二项,γEπ[Gt+1∣St=s],涉及从下一个状态 St+1 开始的期望折扣回报。期望 Eπ[Gt+1∣St=s] 对从状态 s 采取的动作 a 以及产生的后续状态 s′ 进行平均。从后续状态 s′ 开始的期望回报就是 Vπ(s′)。因此:
Eπ[Gt+1∣St=s]=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)Vπ(s′)
请注意,在 p(s′,r∣s,a) 中的奖励 r 不影响 Vπ(s′) 的值,因此我们也可以对 p(s′∣s,a)=∑rp(s′,r∣s,a) 求和。
将两项合并,得到 Vπ 的贝尔曼期望方程:
Vπ(s)=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γVπ(s′)]
这个方程表明,在策略 π 下处于状态 s 的值,是所有动作 a 的平均值(按采取这些动作的概率 π(a∣s) 加权),即期望即时奖励加上后续状态 s′ 的折扣期望值(对所有可能的 s′ 和 r 进行平均,并按 p(s′,r∣s,a) 加权)。
通常可以把这种关系看作是动作值函数 Qπ(s,a)。值 Vπ(s) 仅仅是 Qπ(s,a) 的期望值,对策略 π 可能在状态 s 中选择的动作 a 上的平均:
Vπ(s)=∑aπ(a∣s)Qπ(s,a)
状态值 Vπ(s) 是动作值 Qπ(s,a) 的期望值,对策略 π 所选择的动作 a 进行平均。
Q\pi(s,a) 的贝尔曼期望方程
我们可以为动作值函数 Qπ(s,a) 推导一个类似的方程。回顾其定义:
Qπ(s,a)=Eπ[Gt∣St=s,At=a]
同样,代入 Gt=Rt+1+γGt+1:
Qπ(s,a)=Eπ[Rt+1+γGt+1∣St=s,At=a]
Qπ(s,a)=Eπ[Rt+1∣St=s,At=a]+γEπ[Gt+1∣St=s,At=a]
现在,期望是基于已经在状态 s 中采取了动作 a。环境随后确定了根据 p(s′,r∣s,a) 的后续状态 s′ 和奖励 r。
第一项是在状态 s 中采取动作 a 后的期望即时奖励:
Eπ[Rt+1∣St=s,At=a]=∑s′,rp(s′,r∣s,a)r
第二项涉及从后续状态 St+1=s′ 开始的期望折扣回报。由于智能体从状态 s′ 开始遵循策略 π,期望回报是 Eπ[Gt+1∣St+1=s′]=Vπ(s′)。对所有可能的后续状态 s′ 和奖励 r 进行平均:
γEπ[Gt+1∣St=s,At=a]=γ∑s′,rp(s′,r∣s,a)Vπ(s′)
将这些合并,得到 Qπ 关于 Vπ 的贝尔曼期望方程:
Qπ(s,a)=∑s′,rp(s′,r∣s,a)[r+γVπ(s′)]
这告诉我们,在状态 s 中采取动作 a 的值,是期望即时奖励加上下一个状态的折扣期望值,对所有可能的后续状态 s′ 和奖励 r 进行平均。
状态-动作对 Qπ(s,a) 的值是关于可能的后续状态 s′ 和奖励 r 的期望值。每个产出 (s′,r) 以概率 p(s′,r∣s,a) 发生,并将其即时奖励 r 加上后续状态的折扣值 γVπ(s′) 贡献给期望值。
我们也可以将 Qπ(s,a) 完全用 Qπ 表示,将 Vπ(s′)=∑a′π(a′∣s′)Qπ(s′,a′) 代入方程:
Qπ(s,a)=∑s′,rp(s′,r∣s,a)[r+γ∑a′π(a′∣s′)Qπ(s′,a′)]
方程组
对于一个有限马尔可夫决策过程 (MDP),Vπ 的贝尔曼期望方程给出了一个包含 ∣S∣ 个未知数(所有 s∈S 的值 Vπ(s))的 ∣S∣ 个线性方程组。类似地,Qπ 的方程给出了一个包含 ∣S∣×∣A∣ 个未知数(所有 s∈S,a∈A 的值 Qπ(s,a))的 ∣S∣×∣A∣ 个线性方程组。
这些方程非常核心,因为它们定义了一个一致性条件。状态(或状态-动作对)的值必须与其在策略 π 下可能的后续状态所产生的期望值保持一致。如果我们知道策略 π 和环境动力学(MDP),原则上,我们可以求解这个方程组来找到精确的值函数 Vπ 或 Qπ。这个过程被称为策略评估。
贝尔曼期望方程是动态规划(接下来会讲到)等方法评估策略和寻找最优策略的根本,前提是环境的完美模型可用。它们也促成了无模型方法,如时序差分学习(在后续章节中讨论),这些方法根据经验估计这些值。