趋近智
所有课程
先决条件: 机器学习和Python编程知识
级别:
强化学习基本原理
理解强化学习的核心组成部分:智能体、环境、状态、动作、奖励、策略。
马尔可夫决策过程
使用MDPs表述问题并理解其性质。
值函数与贝尔曼方程
掌握状态值函数和动作值函数的原理并推导贝尔曼方程。
无模型学习
实现并区分蒙特卡洛和时序差分学习方法(Q学习、SARSA)。
函数逼近
在强化学习中应用函数逼近技术,处理大规模状态空间。
深度Q网络(DQN)
理解DQN的基本原理及其组成部分,如经验回放。
强化学习实现
使用Python和相关库构建并训练简单的强化学习智能体。
© 2025 ApX Machine Learning