趋近智
先决条件: Python,机器学习与强化学习基本知识。
级别:
深度Q网络变体
实现并理解DQN、Double DQN、Dueling DQN和优先经验回放等算法。
高级策略梯度方法
掌握A2C、A3C、DDPG、TRPO和PPO的理论与应用。
高级寻觅策略
应用除epsilon-greedy之外的寻觅技术,包括好奇心驱动和基于计数的方法。
基于模型的强化学习
开发能够学习环境模型并用于规划的智能体(例如Dyna-Q、MCTS集成思路)。
多智能体强化学习
理解多智能体场景中的难题,并实现协作和竞争模式下的算法(例如MADDPG)。
离线强化学习
学习如何使用固定数据集训练强化学习智能体,处理诸如分布偏移等难题。
实现与优化
有效优化深度强化学习的实现、调整超参数并调试智能体行为。