趋近智
函数近似使强化学习 (reinforcement learning)智能体能够处理表格方法不可行的庞大或连续状态和动作空间。在这种情况下,线性函数近似是一个重要的进展,它将值函数 或 Q 函数 表示为特征的线性组合。
这里, 是从状态 以及可能的动作 推导出的特征向量 (vector),而 是我们想要学习的权重 (weight)向量。当我们可以定义一组能够捕捉预测值所需基本信息的特征 ,并且真实值函数确实在这些特征中接近线性时,这种方法效果相当好。例如,在中等大小的状态空间中使用瓦片编码或径向基函数。
然而,线性函数近似的有效性主要取决于手工设计的特征 的质量。当处理高维原始感官输入的复杂问题时,这构成了一个主要障碍。设想直接从屏幕像素学习玩雅达利游戏所面临的困难,这是DeepMind推广的一项任务。状态 是一幅图像(或一小段图像序列),由数千或数百万像素值组成。
您将如何从原始像素中手动设计一个特征向量 (vector) ,使其能有效反映游戏情况以预测 Q 值?您可以尝试:
虽然对于较简单的游戏可能可行,但这个过程很快就会变得极其复杂且脆弱:
本质上,依赖手动特征工程将表示学习的负担从算法转移到了人类设计者。对于许多相关问题,特别是那些涉及感知(视觉、音频)的问题,这并不实用。
除了特征设计的难度之外,线性模型本身也存在根本的局限性。它们假设目标函数(Q值)是所提供特征的线性组合。这个假设在现实中通常不成立。
对比线性近似(需要手动特征设计)与深度学习 (deep learning)(执行自动特征学习)在复杂状态空间中的应用。
这些局限性促使需要更强大的函数近似器,它们能够自动从原始高维输入中学习相关特征,并捕获复杂的非线性关系。深度神经网络 (neural network),特别是用于图像数据的卷积神经网络 (CNN) 和用于序列数据的循环神经网络 (RNN),已在多种方面体现出表示学习的显著成功。
通过使用带有权重 (weight) 的深度神经网络 ,我们用一种学习到的变换来代替手动特征工程步骤 。网络本身学习从输入状态 中提取显著特征,并以非线性方式组合它们以产生 Q 值估计。这种直接从经验中学习表示的能力是在强化学习 (reinforcement learning)中采用深度学习的主要原因,从而促成了深度 Q 网络 (DQN) 及后续先进算法的发展。我们现在将看到 DQN 如何使用深度学习来克服线性方法的局限性。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•