趋近智
强化学习包含一个智能体随时间与环境互动,学习做出能使累积奖励最大化的决策。为了准确地分析和解决这些问题,我们需要一个精确的数学架构。不确定性下序列决策最常用的架构是马尔可夫决策过程,简称MDP。
一个MDP提供了一种正式方式来描述强化学习问题中的环境。它假设环境满足马尔可夫性质,这意味着未来状态和奖励只取决于当前状态和动作,而不依赖于之前的全部历史。我们很快会再次讨论这个性质。
正式地,一个MDP由一个包含五个组成部分的元组定义:(S,A,P,R,γ)。让我们分别介绍每个部分:
状态空间 S 是环境可能处于的所有状态的集合。理想情况下,状态 s∈S 应包含做出最佳决策所需的所有相关环境信息。可以把它看作某个特定时刻的情况快照。
例如,在一个简单的网格游戏中,一个状态可以是智能体的 (x,y) 坐标。在围棋游戏中,状态会描述棋盘上棋子的布局。状态可以是离散的(如网格游戏示例中,位置数量有限)或连续的(如机械臂的精确关节角度和速度)。状态空间的复杂性和规模显著影响哪些强化学习算法适用。
A一个重要假设是马尔可夫性质。它表明,转移到下一个状态 s′ 的概率只取决于当前状态 s 和所采取的动作 a,与所有之前的状态和动作无关。数学上,如果 St 是时间 t 的状态,且 At 是时间 t 的动作:
P(St+1=s′∣St=s,At=a,St−1,At−1,...,S0,A0)=P(St+1=s′∣St=s,At=a)当前状态 st 被认为包含历史中的所有必要信息。此性质大大简化了建模,因为我们不需要跟踪过去事件的整个序列,只需关注当前状态。
动作空间 A 是智能体可以从中选择的所有可能动作的集合。有时,可用动作的集合取决于当前状态 s,在这种情况下我们将其表示为 A(s)。动作 a∈A(或 a∈A(s))是智能体在给定时间步做出的决策。
在我们的网格中,动作可能是 A={上, 下, 左, 右}。对于控制室温的恒温器,动作可以是 A={加热, 冷却, 关闭}。动作与状态一样,可以是离散的(有限的选项集合)或连续的(例如,施加到踏板上的力的大小,用实数表示)。
转移概率函数 P 描述了环境的动态特性,常被称为模型。它指定了在智能体采取动作 a 的情况下,从当前状态 s 转移到下一个可能状态 s′ 的概率。它正式地表示为一个函数 P:S×A×S→[0,1]:
P(s′∣s,a)=Pr(St+1=s′∣St=s,At=a)这个函数告诉我们在给定当前状态 (s) 和所做动作 (a) 的情况下,每个潜在结果 s′ 的可能性有多大。由于这些是概率,对于任何起始状态 s 和动作 a,所有可能后继状态 s′ 的和必须等于 1:
s′∈S∑P(s′∣s,a)=1对于所有 s∈S,a∈A(s)转移函数描绘了环境的基本规则。如果对于某个特定的 s′,有 P(s′∣s,a)=1,则该 (s,a) 对的转移是确定性的。更常见的情况是,环境是随机的,这意味着在相同状态下采取相同动作可能以不同概率导致不同结果(例如,机器人移动可能受车轮打滑影响)。
奖励函数 R 定义了智能体从环境中获得的即时反馈信号。它量化了转移或状态的期望程度。奖励是标量值,r∈R。有几种定义奖励函数的常见方式:
一个常用定义给出在当前状态和动作下预期即时奖励:
R(s,a)=E[Rt+1∣St=s,At=a]=s′∈S∑P(s′∣s,a)r∑r⋅p(r∣s,a,s′)其中 p(r∣s,a,s′) 是通过 a 从 s 转移到 s′ 时获得奖励 r 的概率。像 R(s,a,s′) 这样的更简单形式也很常见。
奖励函数隐含地规定了强化学习智能体的目标。智能体学习选择能使时间上的累积奖励最大化的动作,而不仅仅是即时奖励。设计一个有效的奖励函数是应用强化学习的一个重要方面。例如,在游戏中,只在结束时给予奖励(赢+1,输-1)会导致稀疏奖励,这会使学习变慢。提供中间奖励(例如,在国际象棋中捕获对手棋子)可以产生更密集的反馈,但必须谨慎进行,以避免鼓励不理想的短期策略。
折扣因子 γ (gamma) 是一个介于0和1之间的值 (0≤γ≤1)。它控制着未来奖励相对于即时奖励的重要性。未来 k 个时间步收到的奖励,其价值仅相当于立即收到时价值的 γk 倍。
折扣因子有几个作用:
智能体的目标通常被表述为最大化预期折扣回报,我们稍后会更正式地定义它。它是未来所获得的折扣奖励的总和。
正式定义马尔可夫决策过程的五个组成部分。
这五个组成部分,S、A、P、R 和 γ,共同为MDP架构下的序列决策问题提供了完整的描述。它们定义了环境的结构以及强化学习智能体旨在实现的目标:寻找一种选择动作的策略(一个策略),以最大化预期长期折扣奖励。理解这些组成部分对于掌握我们之后将要讨论的用于解决MDP的算法非常必要。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造