趋近智
在智能体、环境及其互动这些核心思想之上,我们现在需要一个正式的框架来描述强化学习所解决的问题。本章将介绍马尔可夫决策过程 (MDPs),这是一种对序贯决策问题进行建模的常用数学工具,这类问题中的结果部分随机,部分受决策者控制。
你将了解如何定义一个MDP的主要组成部分:
我们将研究智能体的行为如何由策略 (π) 来定义,以及如何使用价值函数 (Vπ 和 Qπ) 来评估状态和状态-动作对的“优劣”。这将帮助我们理解MDP框架下强化学习的目标:即找到一个最优策略 (π∗),使其最大化预期累积奖励。
2.1 序贯决策建模
2.2 MDP的正式定义
2.3 状态转移概率
2.4 奖励函数
2.5 回报:未来累积奖励
2.6 未来奖励的折现
2.7 策略与价值函数 (Vπ, Qπ)
2.8 寻找最优策略
© 2026 ApX Machine Learning用心打造