马尔可夫决策过程(MDP)是理解高级强化学习 (reinforcement learning)技术不可或缺的一部分。它提供了一个正式框架,用于建模结果部分随机、部分受决策者或智能体控制的序贯决策问题。
可以想象一个智能体在一系列离散时间步 t=0,1,2,... 中与环境交互。在每个时间步 t,智能体观察环境的状态 St,选择一个动作 At,获得一个标量奖励 Rt+1,并转换到新状态 St+1。马尔可夫决策过程将这种交互正式化。
一个标准的马尔可夫决策过程由一个元组 (S,A,P,R,γ) 定义:
状态 (S)
环境可能处于的所有状态的集合。理想情况下,状态 s∈S 应包含做出最优决策所需的所有相关环境信息。状态可以从简单的离散表示(如棋盘上的位置)到复杂的、高维的连续向量 (vector)(如来自摄像头的数据或机器人的关节角度)。在本高级课程中,我们将经常处理大型或连续状态空间,此时函数逼近是必需的。
动作 (A)
智能体可以采取的所有可能动作的集合。与状态类似,动作 a∈A 可以是离散的(如网格中的“上”、“下”、“左”、“右”)或连续的(如施加到电机的扭矩量)。可用的特定动作集合可能取决于当前状态 s,表示为 A(s)。
转移动态 (P)
转移概率函数定义了环境的动态。它指定了在智能体处于状态 s 并采取动作 a 的情况下,转移到状态 s′ 并获得奖励 r 的概率。这通常写为 p(s′,r∣s,a):
p(s′,r∣s,a)=Pr{St+1=s′,Rt+1=r∣St=s,At=a}
有时,转移概率仅在状态上定义,即 P(s′∣s,a)=∑rp(s′,r∣s,a),奖励函数单独处理。
马尔可夫决策过程的一个决定性特征是马尔可夫性质。此性质表明,未来状态 St+1 和奖励 Rt+1 仅取决于当前状态 St 和动作 At,而不取决于之前的状态和动作的完整历史。数学上表示为:
Pr{St+1=s′,Rt+1=r∣St,At,St−1,At−1,...,S0,A0}=Pr{St+1=s′,Rt+1=r∣St,At}
“当前状态 St 被假定包含了过去所有必要的信息。虽然问题可能无法完美遵循此特性,但马尔可夫决策过程框架通常是一个强大而有效的近似。”
奖励函数 (R)
奖励函数指定了智能体获得的即时数值反馈。它可以通过多种方式定义,通常是在智能体从状态 s 采取动作 a 后转移时的预期即时奖励:
r(s,a)=E[Rt+1∣St=s,At=a]=r∑rs′∑p(s′,r∣s,a)
或者,它也可能取决于结果状态 s′:r(s,a,s′)=E[Rt+1∣St=s,At=a,St+1=s′]。奖励信号 Rt+1 是根本;它定义了强化学习 (reinforcement learning)问题的目标。智能体的目标是最大化这些奖励随时间的累积和。
折扣因子 (γ)
折扣因子 γ 是一个介于 0 和 1 之间的标量(0≤γ≤1)。它决定了未来奖励的现值。未来 k 个时间步获得的奖励仅相当于立即获得奖励价值的 γk−1 倍。
- 如果 γ=0,智能体是“短视的”,只关心最大化即时奖励 Rt+1。
- 当 γ 接近 1 时,智能体变得更“有远见”,更强烈地考虑未来奖励。
折扣因子确保了在持续性任务(没有终止状态的任务)中总累积奖励保持有限,并简化了数学分析。
策略 (π)
智能体的行为由其策略 π 定义。策略是将状态映射到选择每个可能动作的概率的函数。如果智能体在时间 t 处于状态 s,则 π(a∣s) 是 At=a 的概率。强化学习 (reinforcement learning)方法旨在找到一个能够最大化预期累积奖励的策略。
目标:最大化回报
智能体的目标是最大化预期回报,即从时间步 t 开始的折现奖励的累积和。回报 Gt 定义为:
Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1
强化学习 (reinforcement learning)中的核心任务是找到一个策略 π,使得从每个状态 s 开始的预期回报 E[Gt] 最大化。为达到此目的,我们通常会估计值函数,它们量化 (quantization)了遵循策略 π 时从某个状态(Vπ(s))或状态-动作对(Qπ(s,a))获得的预期回报。我们将在下一节中检查这些值函数以及支配它们的方程(贝尔曼方程)。
了解这种马尔可夫决策过程的表述、其组成部分以及潜在的马尔可夫假设,是开发和分析本课程所涵盖的高级强化学习算法的起点。即使在处理复杂的深度学习 (deep learning)模型、大型状态/动作空间或多智能体场景时,这些基本思想也依然核心。