趋近智
之前的章节主要关注通过与环境主动交互来提升能力的强化学习智能体。本章将转向离线强化学习,它常被称为批量强化学习(Batch RL)。在这里,面临的挑战是仅凭静态的、预先收集好的转移数据集来学习有效策略,而没有机会再与环境进行交互。
我们将首先阐述离线学习的动机,并强调它与之前讨论的在线和异策略设置之间的主要区别。离线强化学习的一个核心难题是分布偏移:即固定数据集(由某种行为策略 πb 生成)中状态和动作的分布,与正在评估或学习的新策略所产生的分布不匹配。
本章将论述:
7.1 离线强化学习(批处理强化学习)简介
7.2 离线强化学习与在线及离策略强化学习的区别
7.3 挑战:分布偏移
7.4 离策略评估在离线设置中
7.5 重要性采样及其局限性
7.6 拟合Q迭代(FQI)方法
7.7 策略约束方法
7.8 批处理约束深度Q学习 (BCQ)
7.9 值函数正则化方法
7.10 保守Q学习 (CQL)
7.11 离线强化学习实现方面的考量
7.12 离线强化学习算法实践
© 2026 ApX Machine Learning用心打造