趋近智
Q学习和SARSA等传统方法依赖表格来存储每个状态或状态-动作对的价值估计(Q值)。当状态和动作的数量足够小、可管理时,例如在简单的网格环境或井字棋游戏中,这种方法效果很好。
然而,许多有趣的问题具有庞大甚至无限的状态空间。请看以下情况:
在这些情况下,由于维度灾难,表格方法完全失效。我们面临两个主要难题:
为了应对这些复杂的大规模问题,我们需要一种更具可扩展性的方法。我们不再为每个状态-动作对存储显式值,而是可以使用参数化函数来近似价值函数。这种技术被称为函数近似。
其核心思想是使用一个函数,我们称之为Q^(s,a;θ),它将状态s(可能还有动作a)作为输入,并输出真实Q值Q(s,a)的估计。该函数有一组参数,记为θ,我们将根据代理的经验对其进行学习和调整。
比较表格查找与函数近似获取Q值的方法。函数近似使用参数化函数来估计值,从而实现可扩展性和泛化。
函数近似带来了显著的优势:
各种类型的函数都可以作为近似器,包括线性函数、决策树和瓦片编码。然而,对于涉及图像或复杂状态表示等高维输入的复杂问题,深度神经网络已证明异常有效。它们学习分层特征和建模复杂非线性关系的能力,使其成为强大的Q函数近似器。
在本章中,我们将专门侧重于使用深度神经网络来近似动作价值函数Q(s,a)。这种结合构成了深度Q网络(DQN)的根基,标志着从表格方法向前迈出的重要一步,并使强化学习能够处理远为复杂得多的任务。我们现在将介绍如何构建和训练这样的网络。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造