趋近智
前几章详细介绍了智能体通过与环境持续互动、收集数据并循环更新策略的学习方法。现在,我们将注意力转向一种不同但日益重要的学习方式:离线强化学习 (reinforcement learning),通常也称为批处理强化学习。
设想一下,在某些情况下,将进行试探的强化学习 (reinforcement learning)智能体直接部署到真实系统中是不切实际、不安全或成本极高的。例如:
在这些及许多其他情况下,我们面对的是预先收集好的固定交互数据集,这些数据可能由不同策略甚至多个策略生成。目标是借助这一静态数据集,在学习过程中不与环境进行任何进一步交互的情况下,学习到尽可能好的策略。这是离线强化学习的主要思想。
离线强化学习是一种强化学习方法,其中智能体通过一个静态数据集 来学习策略,该数据集由一组转换组成。
这里, 是状态, 是在该状态下采取的动作, 是获得的奖励,而 是结果的下一个状态。这个数据集 是使用一个或多个行为策略收集的,统称为 。重要的是,我们可能不知道生成数据的确切策略 。主要限制是我们的学习算法只能使用 中存在的转换。它不能向环境查询新的状态-动作对的结果。
目标是使用这个数据集 来学习一个目标策略 ,使其在实际环境中部署时能够最大化预期累积奖励。
离线强化学习流程:数据通过环境交互并采用行为策略进行收集,形成一个静态数据集。离线强化学习算法仅从该数据集学习新策略,无需进一步的环境交互。
需要区分开离线强化学习 (reinforcement learning)与相关内容:
为什么纯粹从静态数据集学习如此困难?主要障碍是分布偏移。固定数据集 反映了行为策略 引起的状态-动作访问频率。如果我们的学习算法试图评估或改进一个行为与 不同的目标策略 ,那么 可能会偏好在 中表示不佳或完全不存在的动作或状态。
思考一下,在离线数据集 上采用标准离策略算法(如DQN)训练Q网络。贝尔曼更新涉及诸如 之类的项。如果在数据集中遇到状态 ,但动作 在状态 中从未被 采取过,那么Q值 就纯粹通过函数逼近外推来估计。神经网络 (neural network)在训练数据分布之外进行外推时是出了名的不可靠。这可能导致极其不准确的Q值估计,通常是显著的高估,从而导致学习过程发散或收敛到次优策略。这种失败模式,源于查询批次中不存在的特定状态下动作的价值,是分布偏移的直接结果。
应对这一挑战是现代离线强化学习 (reinforcement learning)研究的核心议题。接下来的章节将探讨专门为处理分布偏移而开发的技术,包括离线策略评估的方法以及为稳定的离线策略优化而设计的算法。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•