趋近智
强化学习 (reinforcement learning)常处理序贯决策问题。用于建模这些问题的标准数学框架是马尔可夫决策过程 (MDP)。如果您之前接触过强化学习,就会明白 MDPs 是大多数算法得以构建的重要组成部分。这里将讨论MDPs的核心组成部分。
MDP 正式描述了强化学习智能体与之交互的环境。它假设环境是完全可观察的,并满足马尔可夫性质:未来状态仅取决于当前状态和动作,而不取决于之前的状态和动作序列。
MDP 通常由包含五个元素的元组定义:。
这是智能体可能处于的所有情况的集合。状态包含了与决策过程相关的所有必要环境信息。例如,在国际象棋游戏中,状态是棋盘上所有棋子的布局。在机器人导航任务中,状态可能是机器人的坐标 和方向。 状态空间可以是:
这是智能体可以采取的所有可能动作的集合。可用动作可能取决于当前状态,有时表示为 。与状态类似,动作空间可以是:
此函数定义了环境的动态特性。它指定了智能体在状态 中采取动作 后,转移到新状态 的概率。其表达式为: 这种概率分布捕获了环境对智能体动作响应中固有的随机性或不确定性。马尔可夫性质体现在此处:下一个状态 仅取决于当前状态 和动作 。
奖励函数定义了强化学习 (reinforcement learning)问题的目标。它指定了智能体在状态 中采取动作 并转移到状态 后获得的即时数值奖励 。它可以根据情况略有不同,通常定义为:
智能体的目标是最大化随时间的累积奖励,而不仅仅是即时奖励。奖励指导学习过程,指示哪些动作会带来期望的结果。
折扣因子 是一个介于 0 和 1 之间的值 (),它决定了未来奖励的当前价值。未来 步获得的奖励将按 的因子进行折扣。
折扣因子确保在持续任务(没有终止状态的任务)中总预期奖励保持有限,并使我们能够以数学方式处理无限奖励序列。
智能体与环境在 MDP 框架内的交互遵循以下循环:
马尔可夫决策过程中的基本交互循环。智能体观察一个状态,采取一个动作,环境以新状态和奖励作为响应。
理解这种正式结构是必要的,因为强化学习 (reinforcement learning)算法本质上是在 MDPs 中寻找最优策略的方法。当我们讨论 Q-learning、DQN、策略梯度和 Actor-Critic 方法时,它们都基于一个假设:问题可以(至少近似地)建模为 MDP。表格方法的局限性,我们接下来会简单提及,当此元组的组成部分,特别是状态空间和动作空间,变得过大或过于复杂而无法明确处理时,就会出现。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•