趋近智
在我们研究蒙特卡洛方法(这些方法从采样的经验片段中学习)时,一个基本问题出现了:我们究竟在学习哪种策略?答案区分了强化学习 (reinforcement learning)算法的两个主要类别:同策略学习和异策略学习。
了解这一区别非常重要,因为它影响我们如何收集经验以及从中能学到什么。它会影响算法设计、稳定性及灵活性,尤其是在平衡试探(尝试新动作)和利用(使用已知好动作)时。
在同策略方法中,智能体学习的是其当前遵循的价值函数或策略。可以将其理解为“边做边学”。用于生成交互数据(即片段)的策略与智能体试图评估和改进的策略是相同的。
假设智能体遵循策略。它根据选择动作与环境交互。它收集像这样的片段。从这些片段中计算出的回报随后用于估计或,即*针对此特定策略*的价值函数。随后,会根据这些更新的价值估计得到改进,例如通过使其对所学习到的动作价值更具贪婪性。下一批经验随后会利用这个改进后的策略生成。
同策略学习的特点:
蒙特卡洛方法中的一个典型例子是同策略首次访问蒙特卡洛控制,我们稍后将详细说明。它使用由-软策略生成的回报来改进同一个-软策略。
在异策略方法中,智能体利用遵循不同行为策略生成的数据来学习目标策略。可以将其理解为通过观察他人(可能技能较差或更具试探性,即)执行任务来学习如何最优地执行任务(即)。
目标策略通常是智能体最终想要学习的策略(例如,总是选择估计价值最高的动作的确定性贪婪策略)。然而,行为策略是实际用于与环境交互并生成片段的策略。可能比更具试探性,以确保其收集到更广范围的动作和状态数据。
为何使用异策略学习?
**面临的挑战:**由于数据来自而非,访问状态和采取动作的分布不能直接反映在策略下会发生什么。偏好的动作在生成的数据中可能很少出现,反之亦然。直接平均来自片段的回报将得到或的估计值,而非或。
解决方案:异策略方法需要一种方法来纠正这种不匹配。它们常使用如重要性采样等技术,这涉及根据在目标策略下与行为策略下所经历轨迹的相对发生概率来加权观测到的回报。这会调整每个片段的贡献,以解释策略之间的差异。本章稍后我们将涉及异策略蒙特卡洛中的重要性采样。
异策略学习的特点:
Q-学习,我们将在下一章关于时序差分学习中介绍,是一个著名的异策略算法。
同策略与异策略学习流程对比图。同策略使用相同的策略()进行交互和学习。异策略使用行为策略()进行交互,以学习一个不同的目标策略(),这需要一个校正步骤。
| 特点 | 同策略学习 | 异策略学习 |
|---|---|---|
| 数据来源 | 正在学习的策略() | 独立的行为策略() |
| 目标策略 | 正在学习的策略() | 通常是不同的策略(,例如贪婪策略) |
| 试探 | 内置于学习策略()中 | 由行为策略()处理 |
| 挑战 | 平衡试探/利用 | 校正策略不匹配(方差) |
| 灵活性 | 较低(学习其所做之事) | 较高(可在试探的同时学习最优策略,利用历史数据) |
| 例子 | 同策略蒙特卡洛,SARSA | 异策略蒙特卡洛,Q-学习 |
总的来说,同策略和异策略方法的选择取决于问题需求。如果您需要学习所使用的特定行为策略(包括其试探性)的价值,同策略方法是合适的。如果您想学习一个最优策略,无论数据收集期间采用何种试探策略,或者您想从不同智能体或策略生成的数据中学习,异策略方法提供了必要的机制。随着我们继续蒙特卡洛控制,我们将看到这种区分如何在算法设计中体现。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•