趋近智
所有课程
先决条件: 具有强化学习初步知识。
级别:
函数逼近
理解为何及如何使用强化学习中的函数逼近器(如神经网络)。
深度Q网络 (DQN)
实现并理解DQN的组成部分,包括经验回放和目标网络。
DQN变体
学习DQN的改进,例如双重DQN和对决DQN。
策略梯度法
掌握策略梯度背后的理论,并实现REINFORCE算法。
Actor-Critic方法
理解Actor-Critic算法(例如A2C/A3C)的架构和优势。
算法实现
获得实现这些中级强化学习算法的实践经验。
© 2025 ApX Machine Learning