趋近智
首页
博客
课程
大模型
中
所有课程
强化学习中级技术
章节 1: 回顾强化学习基本原理
强化学习问题设置
马尔可夫决策过程 (MDP) 回顾
价值函数与贝尔曼方程
表格型求解方法:Q学习和SARSA
表格方法的局限性
章节 2: 深度Q网络 (DQN)
函数近似的简介
使用神经网络进行Q值近似
DQN 算法架构
经验回放机制
固定Q目标 (目标网络)
DQN训练的损失函数
动手实践:在CartPole上实现DQN
章节 3: DQN的改进与变体
Q-学习中的估值过高问题
双重DQN (DDQN)
对偶网络架构
DQN改进的结合
优先经验回放 (简要概述)
实践:实现双DQN
章节 4: 策略梯度方法
基于价值方法的局限性
策略直接参数化
策略梯度定理
REINFORCE 算法
理解策略梯度中的方差
方差减少的基线
动手实践:实现REINFORCE算法
章节 5: Actor-Critic 方法
结合策略和价值评估
Actor-Critic 架构概述
优势演员-评论家 (A2C)
异步优势参与者-评价者算法 (A3C)
Actor-Critic 实现的考量
对比:REINFORCE 与 A2C/A3C
实践:开发 A2C 实现
Actor-Critic 实现的考量
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
Actor-Critic 实现考量