趋近智
在上一章中,我们建立了强化学习中基本的交互循环:智能体观察状态,采取行动,获得奖励,并转移到新状态。这个循环重复,智能体的目标通常是使随时间积累的总奖励最大化。
然而,许多我们希望通过强化学习解决的问题都涉及一系列决策,其中做出的选择会产生后续影响。例如,教机器人导航建筑物,训练算法下围棋,或者优化供应链中的库存管理。这些问题有几个共同点:
为了有效应对这些复杂情况,开发智能体,我们需要的不仅仅是基本的智能体-环境循环的思路。我们需要一种正式的方式来描述问题本身,包括智能体可能处于的状态、可以采取的行动、状态如何响应行动而变化(环境的动态),以及在此过程中获得的奖励。这种正式描述使我们能够严谨地思考问题,并开发出能够平衡即时奖励与长期目标的优化策略的算法。
考虑一个简化的房间导航示意:
智能体需要从房间 A 到达房间 D。从 A 向北走通常会到达 B,但有时(概率为 0.2)会到达一个危险区域(房间 C)。行动具有概率性结果,并导致不同的后续状态和潜在奖励。
在这个场景中,智能体的位置代表着状态。可用的行动取决于状态(例如,“向北走”、“向东走”)。环境的动态由转移概率(例如从房间 A 向北移动时的 80%/20% 分布)体现。到达目标会产生积极的奖励,而进入危险区域可能会获得负面奖励。
这种将不确定性下的序贯决策问题正式结构化的必要性直接引出了马尔可夫决策过程(MDPs)。MDPs 提供了强化学习中普遍使用的标准数学框架。它们提供了一种精确的方式来定义环境的组成部分和交互,从而使得学习算法的开发和分析成为可能。在接下来的章节中,我们将分解 MDP 的正式定义及其核心构成:状态、行动、转移概率、奖励和折扣因子。理解 MDPs 对于理解强化学习智能体如何在复杂、动态的环境中学习最优行为是重要的。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造