趋近智
在上一章中,我们使用马尔可夫决策过程 (MDP) 对序列决策问题进行了形式化。我们定义了状态、动作、奖励,以及最大化未来累积奖励(回报)的目标。一个核心思想是值函数,它量化了智能体在遵循策略 π 时,处于特定状态 (Vπ(s)) 或在某个状态采取特定动作 (Qπ(s,a)) 的优劣程度。
本章将着重介绍计算这些值函数的方法。我们将引入贝尔曼方程,它根据后继状态的期望值来表示状态或状态-动作对的价值。这些方程构成了许多强化学习算法的依据。
具体来说,您将学到:
学完本章,您将明白当环境动态完全已知时,如何从理论上计算最优值函数和策略。
3.1 贝尔曼期望方程
3.2 贝尔曼最优方程
3.3 求解贝尔曼方程 (概述)
3.4 动态规划:策略迭代
3.5 动态规划:值迭代
3.6 动态规划的局限性
© 2026 ApX Machine Learning用心打造