策略：将状态映射到动作

我们已经确定，智能体通过观察状态和采取动作来与环境互动，以获得奖励。但是，当智能体处于某个特定状态时，它实际上是如何决定采取哪个动作的呢？这种决策逻辑体现在我们称之为智能体的策略中。可以将策略视为智能体的行动方针或其行为的“大脑”。

正式来说，策略是从状态到动作的映射。它界定了一个智能体在特定时间点上的行为方式。策略通常可以分为两种主要类型：确定性策略和随机性策略。

确定性策略

确定性策略直接指明智能体在每个状态下将要采取的动作。如果智能体处于状态 $s$ ，策略 $\pi$ 会给出唯一的动作 $a$ 。我们可以这样表示：

a = \pi(s)

对于所有可能状态集合 $\mathcal{S}$ 中的每个状态 $s$ ，策略 $\pi$ 输出一个来自可用动作集合 $\mathcal{A}(s)$ 的特定动作 $a$ 。设想一个简单的机器人在迷宫中移动。一个确定性策略可能是：“如果你在位置X并且前方路径畅通，就前进。如果受阻，就向右转。”对于给定的状态（位置X，路径畅通），动作（前进）是固定的。

随机性策略

与此不同，随机性策略为每个状态下的动作定义了一个概率分布。它不输出单个动作，而是告知我们在状态 $s$ 中采取每个可能动作 $a$ 的概率。我们将其表示为 $\pi(a|s)$ ：

\pi(a|s) = P[A_t = a | S_t = s]

此处， $P[A_t = a | S_t = s]$ 表示在时间步 $t$ 采取的动作 $A_t$ 为 $a$ 的概率，已知在时间 $t$ 的状态 $S_t$ 为 $s$ 。给定状态下所有可能动作的概率之和必须等于1：

\sum_{a \in \mathcal{A}(s)} \pi(a|s) = 1 \quad \text{对于所有 } s \in \mathcal{S}

为什么使用随机性策略？它们在以下几种情况下尤其有用：

试探： 在学习过程中，智能体通常需要尝试不同的动作，以找到哪些能带来最好的奖励。随机性策略通过允许智能体偶尔选择当前不被认为是最佳的动作，自然地包含了这种试探行为。
不确定性： 有时环境本身存在随机性，或者智能体无法完美区分状态（部分可观察环境）。在这种情况下，随机性策略有时可能表现最佳。
避免确定性循环： 在某些特定场景下，确定性策略可能会陷入次优循环，而随机性策略则有助于打破这些循环。

这里是一个简单的对比示例：

确定性策略（总是从状态S1选择动作A1）与随机性策略（从状态S1以0.7的概率选择动作A1，以0.3的概率选择动作A2）的视觉对比。

目标：寻找最优策略

强化学习 (reinforcement learning)的核心目标通常是找到一个最优策略，记作 $\pi^*$ 。最优策略是指能够使智能体从任何状态开始，在长期运行中获得预期累积奖励最大化的策略。本课程的很大一部分内容将侧重于旨在学习或近似 $\pi^*$ 的算法。

策略的表示方式取决于问题的复杂程度。对于具有少量离散状态和动作的简单环境，策略可以存储在查找表中。但是，对于状态空间较大或连续的问题（例如根据传感器读数控制机器人或从像素玩电子游戏），我们通常使用函数近似器（如线性函数或神经网络 (neural network)）来表示策略 $\pi$ 。这些近似器以状态表示作为输入，并输出动作（确定性）或动作的概率（随机性）。我们将在后续章节中详细介绍函数近似。

总之，策略是决定智能体行为的核心组成部分。它是智能体根据状态选择动作所遵循的行动方针，而找到最佳可能行动方针，即最优策略，是大多数强化学习算法的基本目标。掌握确定性策略和随机性策略之间的区别非常重要，因为我们接下来将讨论从经验中学习这些策略的方法。

这部分内容有帮助吗？

参考文献

Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto, 2018 (MIT Press) - 强化学习领域的权威教材，全面介绍了策略、其数学定义以及确定性策略和随机性策略的区别。
CS234: Reinforcement Learning | Lecture 2: Markov Decision Processes and Policies, Emma Brunskill, 2023 Stanford University Course (Stanford University) - 知名大学课程的讲义，为策略、其正式定义及其在马尔可夫决策过程中的作用提供了结构化介绍。
RL Course by David Silver - Lecture 2: Markov Decision Processes, David Silver, 2015 UCL (University College London) Course (UCL (University College London)) - 广受认可的入门级讲座系列，清晰地解释了策略、其类型以及它们在马尔可夫决策过程中的重要性。