趋近智
我们来阐明离线强化学习与我们之前遇到的在线及标准离策略方法有何不同。理解这些区别对于了解仅从数据日志学习所涉及的特殊难题和技术至关重要。
在在线强化学习 (Online RL) 中,智能体是积极参与者。它持续与环境互动:在状态 st 中采取动作 at,观察下一个状态 st+1 和奖励 rt,并利用这份新经验 (st,at,rt,st+1) 实时更新其策略 π 或价值函数 Q。可以想象 SARSA 或基础的 Actor-Critic 算法在环境循环中一步步操作。智能体自主掌控数据收集过程,平衡尝试新行为和运用已有知识。如果需要某个状态-动作区域的更多信息,它便可以前往该处进行试验。
标准离策略强化学习 (Standard Off-Policy RL),由 DQN 或 DDPG 等算法实现,具有一个特点。智能体学习一个目标策略 π(通常根据当前价值估计采取贪婪策略),同时可能按照一个不同的策略 πb(例如, π 的 ϵ-贪婪版本)行动。它将通过 πb 收集的经验存储在回放缓冲区 D 中。之后通过从该缓冲区抽取小批量数据来进行更新。虽然更新使用了由不同策略生成的潜在“旧”数据(因此是“离策略”),但要点是智能体仍在与环境互动。它不断向缓冲区 D 添加其当前行为策略 πb 收集的新转换。这种持续涌入的新数据,在不断变化的行为策略指引下,使智能体最终获取关于其目标策略相关状态-动作对的信息,即使它们最初未被充分试验。这有助于减轻(但不能消除)因评估行为策略通常不会采取的动作而产生的问题。
离线强化学习 (Offline RL)(批量强化学习 Batch RL) 则是一种更为受限的环境。在这里,智能体不再与环境互动。它获得一个固定、静态的数据集 D={(si,ai,ri,si′)},该数据集通常由之前使用某些未知或部分已知的行为策略 πb(或多个策略)收集。学习算法必须仅利用这批数据来构建尽可能好的策略 π。
在线、离策略(在线)和离线强化学习设置中的数据流对比。在线强化学习涉及直接互动。离策略(在线)使用回放缓冲区但仍会与环境互动以添加新数据。离线强化学习仅从预先设定的固定数据集学习。
这种“无互动”的限制是离线强化学习的显著特点和主要难点。主要区别在于:
以下表格总结了这些对比:
| 特点 | 在线强化学习 | 离策略强化学习 (在线) | 离线强化学习 (批量强化学习) |
|---|---|---|---|
| 数据来源 | 主动互动 | 主动互动 + 回放缓冲区 | 固定、预收集数据集 |
| 互动 | 持续 | 持续 | 学习期间无 |
| 探索 | 智能体积极探索 | 智能体积极探索 (通过 πb) | 受限于固定数据集中的数据 |
| 学习策略 | 通常为同策略 (π=πb) | 离策略 (π=πb) | 离策略 (π=πb) |
| 主要难题 | 探索-利用权衡 | 样本效率、离策略稳定性 | 分布偏差、数据覆盖 |
| 错误修正 | 通过新的环境互动 | 通过新的环境互动 | 无互动修正;依赖算法设计 |
因此,为离线强化学习设计的算法必须明确纳入考量缺乏互动以及分布偏差的潜在严重影响。它们通常结合机制,要么限制所学策略与行为策略的分布保持“接近”,要么对价值估计进行规范,使其对分布外动作持保守态度。我们将在后续章节中介绍这些专门技术。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造