趋近智
首页
博客
课程
大模型
中
所有课程
强化学习导论
章节 1: 强化学习基本原理
什么是强化学习?
智能体与环境
状态、动作与奖励
策略:将状态映射到动作
强化学习工作流程:交互循环
强化学习任务类型:回合制与连续制
强化学习与其他学习类型的比较
为强化学习搭建Python环境
章节 2: 马尔可夫决策过程 (MDPs)
序贯决策建模
MDP的正式定义
状态转移概率
奖励函数
回报:未来累积奖励
未来奖励的折现
策略与价值函数 (Vπ, Qπ)
寻找最优策略
章节 3: 估算值函数
贝尔曼期望方程
贝尔曼最优方程
求解贝尔曼方程 (概述)
动态规划:策略迭代
动态规划:值迭代
动态规划的局限性
章节 4: 蒙特卡洛方法
基于完整回合的学习
蒙特卡洛预测:估计 Vπ
蒙特卡洛控制:估算 Qπ
同策略学习与异策略学习对比
无非固定起点MC控制
同策略首次访问蒙特卡洛控制的实现
离策略蒙特卡洛预测与控制简介
实践:实现蒙特卡洛预测
章节 5: 时序差分学习
从不完整的回合中学习
TD(0) 预测:估计 Vπ
TD学习相对于蒙特卡洛方法的优势
SARSA:同策略TD控制
Q学习:离策略TD控制
比较 SARSA 与 Q-学习
期望SARSA
动手实践:Q-学习的实现
章节 6: 强化学习中的函数逼近
处理大规模状态空间
价值函数近似 (VFA)
状态表示的特征向量
价值函数逼近的线性方法
用于参数学习的梯度下降
半梯度 TD 方法
使用神经网络进行价值函数近似
实践:应用线性价值函数近似
章节 7: 深度Q网络(DQN)简介
Q学习与深度学习的结合
强化学习中神经网络的难题
经验回放机制
固定Q目标 (目标网络)
DQN 算法结构
DQN 的网络结构设计考量
动手实践:构建一个基础DQN
章节 8: 策略梯度方法简介
直接学习策略
策略梯度定理 (理念)
REINFORCE 算法
降低方差的基线
Actor-Critic 方法概述
对比基于价值和基于策略的方法
实践:实现 REINFORCE
状态、动作与奖励
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
强化学习中的状态、动作、奖励