趋近智
我们来了解一下状态、动作和奖励的具体内容。这三个要素构成了几乎所有强化学习问题的核心反馈循环。在我们进一步研究智能体实际如何学习之前,清楚地理解它们是必要的。基于智能体与环境交互的设想,我们现在明确它们之间有哪些信息流动。
状态是环境在特定时刻的快照。它包含智能体需要(或被允许)感知来做决定的信息。可以把它看作是当前的情境或局面。
时间步 t 的特定状态表示为 st,这是其正式定义。环境可以处于的所有可能状态的集合称为状态空间,表示为 S。状态的性质根据问题的不同而有很大差异:
与状态相关的一个重要方面是可观测性。
本课程的大部分内容,尤其是在下一章介绍马尔可夫决策过程(MDP)等核心内容时,我们将假定环境是完全可观测的,或者我们使用的状态表示包含了所有相关信息(满足马尔可夫性质)。
根据当前状态 st,智能体选择一个动作,表示为 at。动作仅仅是智能体做出的一个决定,是其可用的选择之一。
智能体可以采取的所有可能动作的集合是动作空间,表示为 A。有时,可用的动作取决于当前状态,在这种情况下,我们可能会写成 A(st) 来表示状态 st 中有效动作的集合。与状态类似,动作可以是:
move_north、move_south、move_east、move_west。joystick_left、joystick_right、button_fire。动作空间的性质显著影响哪种强化学习算法最适合。
在智能体在状态 st 中采取动作 at 后,环境转换到新状态 st+1 并提供一个数值奖励,表示为 rt+1。这个奖励信号很重要;它是告诉智能体表现如何的主要反馈机制。
奖励假设是强化学习中的一个基本观点:它指出所有目标和意图都可以被视为收到的标量信号(奖励)累积和的期望值的最大化。设计一个有效的奖励函数通常是在实践中应用强化学习最具有挑战性的部分之一。设计不当的奖励函数可能导致意料之外或次优的智能体行为。例如,仅仅因为收集灰尘而奖励一个清洁机器人,可能会导致它为了再次收集灰尘而倾倒灰尘!
这三个组成部分构成了智能体-环境交互循环的依据:
智能体观测状态,选择一个动作,该动作影响环境。环境然后向智能体提供下一个状态和奖励,完成交互循环的一个步骤。
理解状态、动作和奖励是正式定义强化学习问题的第一步。在下一章中,我们将看到这些要素以及环境的动态特性如何在马尔可夫决策过程(MDP)的框架内得到体现。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造