趋近智
本课程涵盖高级强化学习 (reinforcement learning)算法与方法论。它侧重于深度强化学习、策略优化、寻觅方法、基于模型的技术以及多智能体系统。学习者将掌握处理复杂序列决策问题的理论知识与实践操作技能。
先修课程 Python,机器学习与强化学习基本知识。
级别:
深度Q网络变体
实现并理解DQN、Double DQN、Dueling DQN和优先经验回放等算法。
高级策略梯度方法
掌握A2C、A3C、DDPG、TRPO和PPO的理论与应用。
高级寻觅策略
应用除epsilon-greedy之外的寻觅技术,包括好奇心驱动和基于计数的方法。
基于模型的强化学习
开发能够学习环境模型并用于规划的智能体(例如Dyna-Q、MCTS集成思路)。
多智能体强化学习
理解多智能体场景中的难题,并实现协作和竞争模式下的算法(例如MADDPG)。
离线强化学习
学习如何使用固定数据集训练强化学习智能体,处理诸如分布偏移等难题。
实现与优化
有效优化深度强化学习的实现、调整超参数并调试智能体行为。
© 2026 ApX Machine Learning用心打造