趋近智
我们已经确定,智能体通过观察状态和采取动作来与环境互动,以获得奖励。但是,当智能体处于某个特定状态时,它实际上是如何决定采取哪个动作的呢?这种决策逻辑体现在我们称之为智能体的策略中。可以将策略视为智能体的行动方针或其行为的“大脑”。
正式来说,策略是从状态到动作的映射。它界定了一个智能体在特定时间点上的行为方式。策略通常可以分为两种主要类型:确定性策略和随机性策略。
确定性策略直接指明智能体在每个状态下将要采取的动作。如果智能体处于状态 s,策略 π 会给出唯一的动作 a。我们可以这样表示:
a=π(s)对于所有可能状态集合 S 中的每个状态 s,策略 π 输出一个来自可用动作集合 A(s) 的特定动作 a。设想一个简单的机器人在迷宫中移动。一个确定性策略可能是:“如果你在位置X并且前方路径畅通,就前进。如果受阻,就向右转。”对于给定的状态(位置X,路径畅通),动作(前进)是固定的。
与此不同,随机性策略为每个状态下的动作定义了一个概率分布。它不输出单个动作,而是告知我们在状态 s 中采取每个可能动作 a 的概率。我们将其表示为 π(a∣s):
π(a∣s)=P[At=a∣St=s]此处,P[At=a∣St=s] 表示在时间步 t 采取的动作 At 为 a 的概率,已知在时间 t 的状态 St 为 s。给定状态下所有可能动作的概率之和必须等于1:
a∈A(s)∑π(a∣s)=1对于所有 s∈S为什么使用随机性策略?它们在以下几种情况下尤其有用:
这里是一个简单的对比示例:
确定性策略(总是从状态S1选择动作A1)与随机性策略(从状态S1以0.7的概率选择动作A1,以0.3的概率选择动作A2)的视觉对比。
强化学习的核心目标通常是找到一个最优策略,记作 π∗。最优策略是指能够使智能体从任何状态开始,在长期运行中获得预期累积奖励最大化的策略。本课程的很大一部分内容将侧重于旨在学习或近似 π∗ 的算法。
策略的表示方式取决于问题的复杂程度。对于具有少量离散状态和动作的简单环境,策略可以存储在查找表中。但是,对于状态空间较大或连续的问题(例如根据传感器读数控制机器人或从像素玩电子游戏),我们通常使用函数近似器(如线性函数或神经网络)来表示策略 π。这些近似器以状态表示作为输入,并输出动作(确定性)或动作的概率(随机性)。我们将在后续章节中详细介绍函数近似。
总之,策略是决定智能体行为的核心组成部分。它是智能体根据状态选择动作所遵循的行动方针,而找到最佳可能行动方针,即最优策略,是大多数强化学习算法的基本目标。掌握确定性策略和随机性策略之间的区别非常重要,因为我们接下来将讨论从经验中学习这些策略的方法。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造