我们已经确定,智能体通过观察状态和采取动作来与环境互动,以获得奖励。但是,当智能体处于某个特定状态时,它实际上是如何决定采取哪个动作的呢?这种决策逻辑体现在我们称之为智能体的策略中。可以将策略视为智能体的行动方针或其行为的“大脑”。正式来说,策略是从状态到动作的映射。它界定了一个智能体在特定时间点上的行为方式。策略通常可以分为两种主要类型:确定性策略和随机性策略。确定性策略确定性策略直接指明智能体在每个状态下将要采取的动作。如果智能体处于状态 $s$,策略 $\pi$ 会给出唯一的动作 $a$。我们可以这样表示: $$ a = \pi(s) $$ 对于所有可能状态集合 $\mathcal{S}$ 中的每个状态 $s$,策略 $\pi$ 输出一个来自可用动作集合 $\mathcal{A}(s)$ 的特定动作 $a$。设想一个简单的机器人在迷宫中移动。一个确定性策略可能是:“如果你在位置X并且前方路径畅通,就前进。如果受阻,就向右转。”对于给定的状态(位置X,路径畅通),动作(前进)是固定的。随机性策略与此不同,随机性策略为每个状态下的动作定义了一个概率分布。它不输出单个动作,而是告知我们在状态 $s$ 中采取每个可能动作 $a$ 的概率。我们将其表示为 $\pi(a|s)$: $$ \pi(a|s) = P[A_t = a | S_t = s] $$ 此处,$P[A_t = a | S_t = s]$ 表示在时间步 $t$ 采取的动作 $A_t$ 为 $a$ 的概率,已知在时间 $t$ 的状态 $S_t$ 为 $s$。给定状态下所有可能动作的概率之和必须等于1: $$ \sum_{a \in \mathcal{A}(s)} \pi(a|s) = 1 \quad \text{对于所有 } s \in \mathcal{S} $$ 为什么使用随机性策略?它们在以下几种情况下尤其有用:试探: 在学习过程中,智能体通常需要尝试不同的动作,以找到哪些能带来最好的奖励。随机性策略通过允许智能体偶尔选择当前不被认为是最佳的动作,自然地包含了这种试探行为。不确定性: 有时环境本身存在随机性,或者智能体无法完美区分状态(部分可观察环境)。在这种情况下,随机性策略有时可能表现最佳。避免确定性循环: 在某些特定场景下,确定性策略可能会陷入次优循环,而随机性策略则有助于打破这些循环。这里是一个简单的对比示例:digraph PolicyTypes { rankdir=LR; node [shape=circle, style=filled, fillcolor="#e9ecef", width=0.6]; edge [arrowhead=vee]; subgraph cluster_det { label = "确定性策略"; style=dashed; fillcolor="#f8f9fa"; s1_det [label="S1", fillcolor="#a5d8ff"]; a1_det [label="A1", shape=box, fillcolor="#b2f2bb"]; s1_det -> a1_det [label="π(S1) = A1"]; } subgraph cluster_sto { label = "随机性策略"; style=dashed; fillcolor="#f8f9fa"; s1_sto [label="S1", fillcolor="#a5d8ff"]; a1_sto [label="A1", shape=box, fillcolor="#b2f2bb"]; a2_sto [label="A2", shape=box, fillcolor="#ffec99"]; s1_sto -> a1_sto [label="π(A1|S1)=0.7"]; s1_sto -> a2_sto [label="π(A2|S1)=0.3"]; } }确定性策略(总是从状态S1选择动作A1)与随机性策略(从状态S1以0.7的概率选择动作A1,以0.3的概率选择动作A2)的视觉对比。目标:寻找最优策略强化学习的核心目标通常是找到一个最优策略,记作 $\pi^$。最优策略是指能够使智能体从任何状态开始,在长期运行中获得预期累积奖励最大化的策略。本课程的很大一部分内容将侧重于旨在学习或近似 $\pi^$ 的算法。策略的表示方式取决于问题的复杂程度。对于具有少量离散状态和动作的简单环境,策略可以存储在查找表中。但是,对于状态空间较大或连续的问题(例如根据传感器读数控制机器人或从像素玩电子游戏),我们通常使用函数近似器(如线性函数或神经网络)来表示策略 $\pi$。这些近似器以状态表示作为输入,并输出动作(确定性)或动作的概率(随机性)。我们将在后续章节中详细介绍函数近似。总之,策略是决定智能体行为的核心组成部分。它是智能体根据状态选择动作所遵循的行动方针,而找到最佳可能行动方针,即最优策略,是大多数强化学习算法的基本目标。掌握确定性策略和随机性策略之间的区别非常重要,因为我们接下来将讨论从经验中学习这些策略的方法。