趋近智
所有课程
7.1 离线强化学习(批处理强化学习)简介
7.2 离线强化学习与在线及离策略强化学习的区别
7.3 挑战:分布偏移
7.4 离策略评估在离线设置中
7.5 重要性采样及其局限性
7.6 拟合Q迭代(FQI)方法
7.7 策略约束方法
7.8 批处理约束深度Q学习 (BCQ)
7.9 值函数正则化方法
7.10 保守Q学习 (CQL)
7.11 离线强化学习实现方面的考量
7.12 离线强化学习算法实践
© 2025 ApX Machine Learning