正如我们所见,强化学习围绕代理与环境随时间互动,接收观察(状态)和奖励,并根据其策略选择行动。然而,并非所有强化学习问题都以相同方式进行。代理与环境互动循环的结构可能不同,主要分为两类:回合制任务和连续制任务。了解这种区别很重要,因为它影响我们如何定义代理的目标并衡量其成效。回合制任务:有终点线的互动许多强化学习问题的互动自然地分解为子序列或片段。可以想想下棋、在迷宫中找到出口,或机器人组装特定零件。每局游戏、每次迷宫运行或每次组装都代表一个独立的互动单位。这些单位被称为回合。回合制任务的特点是存在一个或多个终止状态。当代理达到终止状态时,当前回合结束。回合结束后,环境通常会重置,并开始一个新回合,通常从一个标准初始状态或可能的初始状态分布开始。考虑一个简单的网格,代理需要从起始点 'S' 移动到目标点 'G'。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fontcolor="#495057"]; edge [fontname="sans-serif", color="#868e96", fontcolor="#868e96"]; Start [label="开始\n(重置)", shape=ellipse, style=filled, fillcolor="#e9ecef"]; S0 [label="状态 0"]; S1 [label="状态 1"]; Sn [label="...", shape=plaintext]; Terminal [label="终止状态\n(例如,达成目标\n或游戏结束)", shape=doublecircle, color="#12b886", fontcolor="#12b886"]; Start -> S0 [label=" 开始\n回合 "]; S0 -> S1 [label=" 行动, 奖励 "]; S1 -> Sn [label=" 行动, 奖励 "]; Sn -> Terminal [label=" 行动, 奖励 "]; Terminal -> Start [label=" 结束回合,\n重置 "]; }回合制任务的流程。每个互动序列运行直到达到终止状态,然后为下一个回合重置。在回合制任务中,代理的目标通常是最大化单个回合中累积的总奖励。回合内奖励的总和通常被称为回报。由于每个回合的长度有限,因此回报是明确的。我们可以通过对多个回合的回报取平均值来评估代理的效能。回合制任务的例子包括:游戏: 国际象棋、围棋、雅达利游戏(每局游戏都是一个回合)。迷宫移动: 找到出口(到达出口状态终止回合)。机器人任务: 拿起一个物体并放入箱子(任务完成是终止状态)。连续制任务:没有终点的互动与回合制任务相反,一些强化学习问题涉及没有自然终点的互动。代理与环境的互动持续进行,不会分解为可识别的回合。可以想想一个持续管理化学过程的系统、一个在金融市场中持续做出交易决策的算法,或者一个需要无限期管理其电量水平的太阳能机器人。这些是连续制任务。没有终止状态。互动序列原则上可以永远持续下去。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fontcolor="#495057"]; edge [fontname="sans-serif", color="#868e96", fontcolor="#868e96"]; Start [label="...", shape=plaintext]; St [label="状态 t"]; St1 [label="状态 t+1"]; St2 [label="状态 t+2"]; End [label="...", shape=plaintext]; Start -> St; St -> St1 [label=" 行动 t,\n奖励 t+1 "]; St1 -> St2 [label=" 行动 t+1,\n奖励 t+2 "]; St2 -> End [label=" 行动 t+2,\n奖励 t+3 "]; }连续制任务的流程。互动无限期地进行,没有设定的终止状态或重置。这带来了一个难题:如果互动从不结束,我们如何定义累积的总奖励?对无限序列的奖励求和可能导致无限大的值,从而难以比较不同的策略。为了处理这个问题,我们经常引入折扣的思路。我们不只是简单地将奖励相加,而是计算折扣回报,其中未来获得的奖励权重低于即时奖励。我们使用一个折扣因子,通常用希腊字母伽马 ($ \gamma $) 表示,其中 $0 \le \gamma < 1$。目标变为最大化折扣奖励的总和:$$ G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} $$此处,$G_t$ 是从时间步长 $t$ 开始的折扣回报,而 $R_{t+k+1}$ 是未来 $k+1$ 步后收到的奖励。通过使用折扣因子 $ \gamma < 1 $,我们确保即使互动永远持续下去(假设奖励有界),这个总和也保持有限。折扣也常常在直觉上说得通:即时奖励可能比遥远未来的奖励更有价值。我们将在关于马尔可夫决策过程的下一章中更详细地了解回报计算和折扣。连续制任务的例子包括:过程控制: 维持反应堆中的温度或压力。资源管理: 操作系统为进程分配资源。算法交易: 根据市场数据持续做出买卖决策。气候控制: 暖通空调系统维持建筑物温度。为什么这种区别很重要?判断任务是回合制还是连续制,是设置强化学习问题的一个基本步骤。目标定义: 它改变了我们如何定义代理旨在最大化的累积奖励或‘回报’。在回合制任务中,通常是每个回合中未折扣的奖励总和。在连续制任务中,通常是无限时间范围内折扣后的总和。算法构建: 虽然许多核心强化学习思想适用于这两种类型,但数学表达式以及有时算法本身会根据任务类型进行调整。例如,一些方法,如基础蒙特卡洛(我们稍后会看到),依赖于完整的回合,使其自然适用于回合制任务。时序差分方法通常适用于两者。在处理新问题时,首先要问的问题之一是:“互动是否有自然终点?”这将引导您如何规划代理的目标并选择合适的学习方法。