趋近智
虽然使用深度神经网络 (neural network)近似动作价值函数 看起来像是对标准函数近似技术的自然延伸,但将它们直接应用于 Q-learning 框架会带来显著的障碍。神经网络表现良好的标准监督学习 (supervised learning)方法,通常依赖于在强化学习 (reinforcement learning)环境中不成立的假设。训练稳定性成为一个主要顾虑,原因有两方面:数据的序列性以及目标值不断变化。
在典型的监督学习 (supervised learning)场景中,训练数据由被认为是独立同分布(i.i.d.)的样本组成。这种独立性使得随机梯度下降 (gradient descent)(SGD)等优化算法能够通过采样小批量数据稳步进行,这些数据提供了对真实梯度的相对无偏估计。
然而,强化学习 (reinforcement learning)会按顺序生成数据。智能体随时间与环境交互,产生一系列经验:。这个序列中连续的样本通常高度相关。状态 强烈依赖于 和 。如果我们根据经验的到来顺序训练神经网络 (neural network),就会违反 i.i.d. 假设。
为什么这种相关性不利?
第二个主要难题来自于 Q-learning 更新其估计值的方式。回顾 Q-learning 更新中用于转换 的目标值:
这里, 表示我们近似 Q 函数的神经网络 (neural network)的参数 (parameter)。我们希望调整网络的预测 ,使其更接近这个目标值。损失函数 (loss function),通常是均方误差(MSE),会是下面这样:
请注意,参数 既出现在预测 中,也出现在目标 中。当我们执行梯度下降 (gradient descent)步骤来最小化这个损失时,我们正在调整 。但是当 改变时,目标值本身也会发生变化,因为它也依赖于 。
这就产生了“移动目标”问题。我们正试图让网络的预测与一个每一步更新都会改变的目标相匹配。这种耦合可能导致反馈循环和不稳定:旨在减少误差的更新可能无意中以一种在下一步中增加误差的方式移动目标,可能导致网络参数的振荡甚至发散。这就像你根据上一次射击调整瞄准时,目标每次都会突然移动一样。
这两个问题,相关数据和非平稳目标,意味着天真地将标准 Q-learning 与深度神经网络结合通常无法收敛或产生不稳定结果。应对这些难题对于使深度强化学习 (reinforcement learning)变得实用非常重要,从而促成了经验回放(Experience Replay)和固定 Q 目标(Fixed Q-Targets)等技术的发展,我们接下来会讨论这些技术。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•