趋近智
在您已有的强化学习 (reinforcement learning)知识之上。本课程涵盖重要的中级方法,包括深度Q网络 (DQN)、策略梯度法和Actor-Critic算法。学习运用函数逼近和高级策略来处理更复杂的序列决策问题。包含实践操作指南。
先修课程 具有强化学习初步知识。
级别:
函数逼近
理解为何及如何使用强化学习中的函数逼近器(如神经网络)。
深度Q网络 (DQN)
实现并理解DQN的组成部分,包括经验回放和目标网络。
DQN变体
学习DQN的改进,例如双重DQN和对决DQN。
策略梯度法
掌握策略梯度背后的理论,并实现REINFORCE算法。
Actor-Critic方法
理解Actor-Critic算法(例如A2C/A3C)的架构和优势。
算法实现
获得实现这些中级强化学习算法的实践经验。