趋近智
在处理更高级的技术之前,有必要确保我们对强化学习(RL)的主要原理有扎实的掌握。本章旨在对强化学习学科中的主要知识进行一次集中温习。
我们将简要回顾:
最后,我们将审视这些表格方法的固有局限性,特别是在处理大型或连续状态空间时。对这些限制的理解将为后续章节中介绍的函数近似方法做好铺垫。此次复习有助于我们建立共同的认知,以便继续学习深度Q网络和策略梯度方法。
1.1 强化学习问题设置
1.2 马尔可夫决策过程 (MDP) 回顾
1.3 价值函数与贝尔曼方程
1.4 表格型求解方法:Q学习和SARSA
1.5 表格方法的局限性
© 2026 ApX Machine Learning用心打造