趋近智
正如我们所见,强化学习 (reinforcement learning)围绕代理与环境随时间互动,接收观察(状态)和奖励,并根据其策略选择行动。然而,并非所有强化学习问题都以相同方式进行。代理与环境互动循环的结构可能不同,主要分为两类:回合制任务和连续制任务。了解这种区别很重要,因为它影响我们如何定义代理的目标并衡量其成效。
许多强化学习 (reinforcement learning)问题的互动自然地分解为子序列或片段。可以想想下棋、在迷宫中找到出口,或机器人组装特定零件。每局游戏、每次迷宫运行或每次组装都代表一个独立的互动单位。这些单位被称为回合。
回合制任务的特点是存在一个或多个终止状态。当代理达到终止状态时,当前回合结束。回合结束后,环境通常会重置,并开始一个新回合,通常从一个标准初始状态或可能的初始状态分布开始。
考虑一个简单的网格,代理需要从起始点 'S' 移动到目标点 'G'。
回合制任务的流程。每个互动序列运行直到达到终止状态,然后为下一个回合重置。
在回合制任务中,代理的目标通常是最大化单个回合中累积的总奖励。回合内奖励的总和通常被称为回报。由于每个回合的长度有限,因此回报是明确的。我们可以通过对多个回合的回报取平均值来评估代理的效能。
回合制任务的例子包括:
与回合制任务相反,一些强化学习 (reinforcement learning)问题涉及没有自然终点的互动。代理与环境的互动持续进行,不会分解为可识别的回合。可以想想一个持续管理化学过程的系统、一个在金融市场中持续做出交易决策的算法,或者一个需要无限期管理其电量水平的太阳能机器人。
这些是连续制任务。没有终止状态。互动序列原则上可以永远持续下去。
连续制任务的流程。互动无限期地进行,没有设定的终止状态或重置。
这带来了一个难题:如果互动从不结束,我们如何定义累积的总奖励?对无限序列的奖励求和可能导致无限大的值,从而难以比较不同的策略。
为了处理这个问题,我们经常引入折扣的思路。我们不只是简单地将奖励相加,而是计算折扣回报,其中未来获得的奖励权重 (weight)低于即时奖励。我们使用一个折扣因子,通常用希腊字母伽马 () 表示,其中 。目标变为最大化折扣奖励的总和:
此处, 是从时间步长 开始的折扣回报,而 是未来 步后收到的奖励。通过使用折扣因子 ,我们确保即使互动永远持续下去(假设奖励有界),这个总和也保持有限。折扣也常常在直觉上说得通:即时奖励可能比遥远未来的奖励更有价值。我们将在关于马尔可夫决策过程的下一章中更详细地了解回报计算和折扣。
连续制任务的例子包括:
判断任务是回合制还是连续制,是设置强化学习 (reinforcement learning)问题的一个基本步骤。
在处理新问题时,首先要问的问题之一是:“互动是否有自然终点?”这将引导您如何规划代理的目标并选择合适的学习方法。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造