趋近智
序列决策问题通过马尔可夫决策过程(MDP)进行建模。既定策略 π 可以使用其价值函数 Vπ(s) 和 Qπ(s,a) 进行评估。其中,Vπ(s) 代表从状态 s 开始并遵循策略 π 的期望回报。此外,Qπ(s,a) 则是从状态 s 开始,采取动作 a,随后遵循策略 π 的期望回报。
求解 MDP 的最终目标不仅仅是评估任意策略,而是找到最优策略。“最优”指的是什么?在强化学习和 MDP 的背景下,它指的是最大化期望的累积折扣回报。我们将这样的策略称为最优策略,通常表示为 π∗。
正式来说,如果策略 π 的期望回报对于所有状态 s∈S 都大于或等于任何其他策略 π′ 的期望回报,那么它就被认为是最佳的。
Vπ(s)≥Vπ′(s)对于所有 s∈S 和所有策略 π′
需要指出的是,可能存在不止一个最优策略,但它们都能实现最大可能的期望回报。所有最优策略共享相同的最优状态价值函数,表示为 V∗,以及相同的最优动作价值函数,表示为 Q∗。
这些最优价值函数定义如下:
V∗(s)=maxπVπ(s)对于所有 s∈S
Q∗(s,a)=maxπQπ(s,a)对于所有 s∈S,a∈A
V∗(s) 给出从状态 s 开始可以达到的最大期望回报,无论随后遵循哪种特定的最优策略。类似地,Q∗(s,a) 给出从状态 s 开始,采取动作 a,然后此后遵循最优策略可以达到的最大期望回报。
最优动作价值函数 Q∗ 与最优策略 π∗ 之间存在直接而有力的关联。如果您知道了真实的 Q∗ 函数,找到最优策略将会很简单。您只需在每个状态 s 中选择使 Q∗(s,a) 最大化的动作。一个对于最优动作价值函数 Q∗ 采取贪婪行动的策略,保证是一个最优策略。
因此,最优策略 π∗ 可以定义为:
π∗(s)=argmaxa∈AQ∗(s,a)
这意味着在状态 s 中,最优策略根据 Q∗ 选择产生最高期望回报的动作 a。如果多个动作具有相同最大值,最优策略可以选择其中任何一个。
正如任意策略 π 的价值函数满足贝尔曼期望方程一样,最优价值函数 V∗ 和 Q∗ 也满足它们自己特定的贝尔曼方程,即贝尔曼最优方程。这些方程为最优价值提供了一种递归定义。
V∗ 的贝尔曼最优方程是:
V∗(s)=maxa∈AQ∗(s,a) V∗(s)=maxa∈A∑s′∈SP(s′∣s,a)[R(s,a,s′)+γV∗(s′)]
该方程表达了状态 s 的最优价值必须等于从该状态采取最好的可能动作 a 并此后遵循最优策略所获得的期望回报。max 运算符表示智能体选择使后续期望价值最大化的动作。
类似地,Q∗ 的贝尔曼最优方程是:
Q∗(s,a)=∑s′∈SP(s′∣s,a)[R(s,a,s′)+γV∗(s′)] 由于 V∗(s′)=maxa′∈AQ∗(s′,a′),我们可以写成: Q∗(s,a)=∑s′∈SP(s′∣s,a)[R(s,a,s′)+γmaxa′∈AQ∗(s′,a′)]
该方程表明,在状态 s 中采取动作 a 的最优价值是期望即时回报 R(s,a,s′) 加上下一个状态 s′ 的折扣期望价值,前提是智能体从该下一个状态开始最优地行动(maxa′Q∗(s′,a′))。
这些最优方程是根本的。如果我们能找到一个价值函数 V 或 Q 满足相应的贝尔曼最优方程,那么该价值函数就是最优价值函数(V∗ 或 Q∗),我们就可以从中推导出最优策略。
求解 MDP 本质上意味着找到 V∗ 或 Q∗。尽管贝尔曼最优方程定义了这些函数,但它们不直接提供求解方法,尤其因为它们通常形成一个非线性方程组。下一章将介绍基于动态规划的算法,例如价值迭代和策略迭代,这些算法旨在计算这些最优价值函数,前提是我们拥有 MDP 的完整模型(即,我们知道转移概率 P 和回报函数 R)。随后的章节将研究如何在模型不可用的情况下找到最优策略。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造