趋近智
当面对具有大量状态或连续状态空间的问题时,使用表格来表示价值函数变得不可行。试想一下,为屏幕上的每种像素配置,或复杂机器人的每种关节角度组合创建表格条目会是怎样?函数逼近提供了一种解决方案,它通过使用更紧凑的表示来估计价值函数。这个过程中的一个基本步骤是定义我们如何将状态 本身表示为逼近器的输入。我们通常使用特征向量 (vector),记作 ,而不是原始状态描述。
特征向量 通常是一个实数值列向量,它捕获状态 的重要属性:
这里, 是特征的数量,每个 是状态 的第 个特征值。主要思路是特征的数量 通常远小于状态总数 。这种压缩表示让我们的学习算法能够泛化。如果两个状态 和 具有相似的特征向量,即 ,则函数逼近器可能会为它们产生相似的价值估计,即使某个状态从未被访问过。
目标是选择能够有效表达状态价值的特征。好的特征应具备:
设计这些特征的过程通常称为特征工程。它涵盖从简单技术到相当复杂的技术,有时需要丰富的领域知识。
让我们看看构建特征向量 (vector)的一些方法:
对于某些问题,状态表示本身可能已是一个相对低维的数值向量。例如,在经典的“杆平衡”环境中,状态通常由四个数值表示:小车位置、小车速度、杆子角度和杆子角速度。
在这种情况下,我们可能直接将状态表示用作特征向量:
即使在这里,对这些原始值进行归一化 (normalization)或缩放也通常有益。
当原始状态很复杂(例如图像或棋盘游戏的配置)时,我们可以利用对问题领域的理解来手动定义相关特征。
创建好的手工设计特征通常需要迭代和实验。
如果潜在价值函数预期为某些基本状态变量的非线性函数,我们可以创建多项式特征。对于具有基本特征 和 的状态 ,我们可以创建一个包含多项式项的特征向量:
常量特征 '1' 允许逼近器学习一个偏置 (bias)项。这种方法可以捕获一些非线性关系,但可能很快导致特征数量过多。
瓦片编码是一种常用技术,尤其适用于连续状态空间。它通过叠加多个网格(瓦片组)来离散化空间,每个网格相对于其他网格都有偏移。一个状态在每个瓦片组中激活一个瓦片。特征向量 通常是一个大型二进制向量,其中每个分量对应所有瓦片组中的一个瓦片。如果对应瓦片对状态 处于活动状态,则分量为 1,否则为 0。
二维瓦片编码示意图。一个状态(红点)落入每个偏移网格(瓦片组 1 和 瓦片组 2)中的一个瓦片。激活的瓦片(例如 b2 和 y3)对应二进制特征向量中的 '1' 条目。
瓦片编码的主要优点是它提供良好泛化能力。彼此接近的状态将共享一些激活的瓦片,从而产生相似的特征向量和相似的价值估计。泛化程度由瓦片宽度和瓦片组的数量/偏移量控制。
对于连续空间的另一种方法涉及使用径向基函数。您在状态空间中定义一组原型点(中心)。然后根据当前状态 与这些中心的距离计算特征,通常使用高斯核等函数:
每个特征 衡量状态 与中心 的相似度。靠近特定中心的状态,其对应特征值会很高。与瓦片编码类似,RBF 提供平滑泛化。
相对于手动设计特征,我们可以使用强大的函数逼近器,如深度神经网络 (neural network),直接从原始、高维输入(例如屏幕像素或传感器读数)中学习相关特征。这是深度强化学习 (reinforcement learning)的核心思路,我们将在第 7 章(深度 Q 网络)中介绍。网络的隐藏层将原始输入转换为逐渐更抽象和有用的表示(特征),然后由输出层用于估计价值函数。
到目前为止,我们主要讨论了状态价值函数 的特征 。当逼近动作价值函数 时,特征通常需要依赖于状态和动作。我们将此特征向量 (vector)记作 。
一个常见的方法是首先计算状态特征 ,然后根据动作 组合它们。例如,如果存在 个离散动作,可以通过将状态特征向量 放入一个更大向量中对应于动作 的特定块中来构建 ,其他地方填充零。
一旦我们有了特征向量 (vector) (或 ),它就作为我们选择的函数逼近器的输入。例如,在线性函数逼近中(我们将在下文讨论),价值函数被估计为特征的加权和:
或对于动作价值:
这里, 是强化学习 (reinforcement learning)算法学习的权重 (weight)(参数 (parameter))向量。学习过程的目标是找到权重 ,使得逼近值 或 接近真实的价值函数 或 。
选择或设计合适的特征对于强化学习中函数逼近方法的成功非常重要。好的特征使学习任务更简单,并能在状态空间中有效泛化。在以下部分,我们将研究如何使用这些特征表示来学习权重 。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•