强化学习中,智能体与其所处环境在一系列时间步中进行互动。在每个时间步 $t$,智能体观察一个状态 $S_t$,选择一个动作 $A_t$,获得一个奖励 $R_{t+1}$,并转移到一个新状态 $S_{t+1}$。奖励函数 $R$ 提供了即时反馈机制,但智能体的目标不只是最大化即时奖励 $R_{t+1}$。智能行为通常需要考虑动作的长期结果。一个动作可能产生较小的即时奖励,但会引向能够提供更大未来奖励的状态。反之,较大的即时奖励可能引向不利的未来状态。为了表示这种长期累积奖励,我们引入了回报。回报,记为 $G_t$,是智能体预期从时间步 $t$ 开始累积的总奖励。我们计算回报的具体方法取决于任务是分幕式还是连续式。分幕式任务中的回报分幕式任务是那些有自然结束点的任务。可以想一下象棋或吃豆人等游戏,每局游戏最终都会结束。在这些任务中,状态、动作和奖励的序列构成一个幕:$S_0, A_0, R_1, S_1, A_1, R_2, ..., S_{T-1}, A_{T-1}, R_T, S_T$,其中 $S_T$ 是一个特殊的终止状态。对于一个分幕式任务,从时间步 $t$ 开始的回报 $G_t$ 简单地是所有从时间步 $t+1$ 直到幕在时间步 $T$ 结束所获得的奖励总和:$$ G_t = R_{t+1} + R_{t+2} + R_{t+3} + \dots + R_T $$这可以更紧凑地写为:$$ G_t = \sum_{k=0}^{T-t-1} R_{t+k+1} $$这里,$T$是这一幕的最后时间步。智能体在分幕式任务中的目标是选择能最大化每一幕中这个有限未来奖励和的预期值的动作。连续式任务中的回报与贴现的必要性另一方面,连续式任务没有终止状态,并且可能无限期地持续下去。例子包括控制机器人执行持续维护任务或管理投资组合。如果像分幕式任务那样简单地将奖励求和,回报 $G_t$ 很容易变得无限大($T \to \infty$),使得比较不同策略变得困难。我们如何有意义地定义一个不发散的累积奖励?在这里,贴现这个想法变得非常重要。我们引入一个贴现因子,用希腊字母伽马($\gamma$)表示,其中 $0 \le \gamma \le 1$。其思路是与即时奖励相比,对未来获得的奖励给予较小的权重。贴现回报 $G_t$ 被定义为未来奖励的总和,其中每个奖励 $R_{t+k+1}$ 都乘以 $\gamma^k$:$$ G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} $$这有何益处?数学收敛性:如果奖励信号有界(通常如此)并且 $\gamma < 1$,这个无限和将收敛到一个有限值。这使我们即使对于无限序列也能比较回报。行为偏好:贴现通常具有直观意义。较早获得的奖励通常比相同的奖励在较晚获得时更受偏好。因子 $\gamma$ 控制着这种偏好:如果 $\gamma$ 接近0,智能体变得“短视”,过度关注即时奖励。如果 $\gamma$ 接近1,智能体变得“远见”,更强烈地考虑未来的奖励。统一观点有趣的是,贴现回报公式 $G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$ 可以看作是一个通用情况。对于分幕式任务,我们可以认为它们通过转移到一个吸收性终止状态而结束,该状态此后只产生0奖励。该公式仍然适用,并且如果 $\gamma = 1$,它就简化回未贴现的总和 $G_t = \sum_{k=0}^{T-t-1} R_{t+k+1}$。然而,即使在分幕式任务中,使用 $\gamma < 1$ 也很常见,目的是鼓励更快地找到终止状态或确保某些算法的收敛性。因此,在大多数MDP框架下的强化学习问题中,根本目的就是找到一个策略(选择动作的方式),使得从每个状态 $S_t$ 获得的预期贴现回报 $E[G_t]$ 最大化。这个量,即特定策略下的预期回报,正是我们将在后续章节中定义的状态或状态-动作对的价值。理解回报 $G_t$ 是评估不同情况和动作长期表现如何的第一步。接下来我们将更详细地讨论贴现因子 $\gamma$ 的作用。