马尔可夫决策过程(MDP)是理解高级强化学习技术不可或缺的一部分。它提供了一个正式框架,用于建模结果部分随机、部分受决策者或智能体控制的序贯决策问题。可以想象一个智能体在一系列离散时间步 $t = 0, 1, 2, ...$ 中与环境交互。在每个时间步 $t$,智能体观察环境的状态 $S_t$,选择一个动作 $A_t$,获得一个标量奖励 $R_{t+1}$,并转换到新状态 $S_{t+1}$。马尔可夫决策过程将这种交互正式化。一个标准的马尔可夫决策过程由一个元组 $(\mathcal{S}, \mathcal{A}, P, R, \gamma)$ 定义:状态 ($\mathcal{S}$)环境可能处于的所有状态的集合。理想情况下,状态 $s \in \mathcal{S}$ 应包含做出最优决策所需的所有相关环境信息。状态可以从简单的离散表示(如棋盘上的位置)到复杂的、高维的连续向量(如来自摄像头的数据或机器人的关节角度)。在本高级课程中,我们将经常处理大型或连续状态空间,此时函数逼近是必需的。动作 ($\mathcal{A}$)智能体可以采取的所有可能动作的集合。与状态类似,动作 $a \in \mathcal{A}$ 可以是离散的(如网格中的“上”、“下”、“左”、“右”)或连续的(如施加到电机的扭矩量)。可用的特定动作集合可能取决于当前状态 $s$,表示为 $\mathcal{A}(s)$。转移动态 ($P$)转移概率函数定义了环境的动态。它指定了在智能体处于状态 $s$ 并采取动作 $a$ 的情况下,转移到状态 $s'$ 并获得奖励 $r$ 的概率。这通常写为 $p(s', r | s, a)$: $$ p(s', r | s, a) = \text{Pr}{S_{t+1} = s', R_{t+1} = r | S_t = s, A_t = a} $$ 有时,转移概率仅在状态上定义,即 $P(s' | s, a) = \sum_{r} p(s', r | s, a)$,奖励函数单独处理。马尔可夫决策过程的一个决定性特征是马尔可夫性质。此性质表明,未来状态 $S_{t+1}$ 和奖励 $R_{t+1}$ 仅取决于当前状态 $S_t$ 和动作 $A_t$,而不取决于之前的状态和动作的完整历史。数学上表示为: $$ \text{Pr}{S_{t+1} = s', R_{t+1} = r | S_t, A_t, S_{t-1}, A_{t-1}, ..., S_0, A_0} = \text{Pr}{S_{t+1} = s', R_{t+1} = r | S_t, A_t} $$ “当前状态 $S_t$ 被假定包含了过去所有必要的信息。虽然问题可能无法完美遵循此特性,但马尔可夫决策过程框架通常是一个强大而有效的近似。”奖励函数 ($R$)奖励函数指定了智能体获得的即时数值反馈。它可以通过多种方式定义,通常是在智能体从状态 $s$ 采取动作 $a$ 后转移时的预期即时奖励: $$ r(s, a) = \mathbb{E}[R_{t+1} | S_t = s, A_t = a] = \sum_{r} r \sum_{s'} p(s', r | s, a) $$ 或者,它也可能取决于结果状态 $s'$:$r(s, a, s') = \mathbb{E}[R_{t+1} | S_t = s, A_t = a, S_{t+1} = s']$。奖励信号 $R_{t+1}$ 是根本;它定义了强化学习问题的目标。智能体的目标是最大化这些奖励随时间的累积和。折扣因子 ($\gamma$)折扣因子 $\gamma$ 是一个介于 0 和 1 之间的标量($0 \le \gamma \le 1$)。它决定了未来奖励的现值。未来 $k$ 个时间步获得的奖励仅相当于立即获得奖励价值的 $\gamma^{k-1}$ 倍。如果 $\gamma = 0$,智能体是“短视的”,只关心最大化即时奖励 $R_{t+1}$。当 $\gamma$ 接近 1 时,智能体变得更“有远见”,更强烈地考虑未来奖励。 折扣因子确保了在持续性任务(没有终止状态的任务)中总累积奖励保持有限,并简化了数学分析。策略 ($\pi$)智能体的行为由其策略 $\pi$ 定义。策略是将状态映射到选择每个可能动作的概率的函数。如果智能体在时间 $t$ 处于状态 $s$,则 $\pi(a|s)$ 是 $A_t = a$ 的概率。强化学习方法旨在找到一个能够最大化预期累积奖励的策略。目标:最大化回报智能体的目标是最大化预期回报,即从时间步 $t$ 开始的折现奖励的累积和。回报 $G_t$ 定义为: $$ G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} $$ 强化学习中的核心任务是找到一个策略 $\pi$,使得从每个状态 $s$ 开始的预期回报 $\mathbb{E}[G_t]$ 最大化。为达到此目的,我们通常会估计值函数,它们量化了遵循策略 $\pi$ 时从某个状态($V^\pi(s)$)或状态-动作对($Q^\pi(s, a)$)获得的预期回报。我们将在下一节中检查这些值函数以及支配它们的方程(贝尔曼方程)。了解这种马尔可夫决策过程的表述、其组成部分以及潜在的马尔可夫假设,是开发和分析本课程所涵盖的高级强化学习算法的起点。即使在处理复杂的深度学习模型、大型状态/动作空间或多智能体场景时,这些基本思想也依然核心。