趋近智
标准深度Q网络代表着一个重要进展,使我们能够将强化学习 (reinforcement learning)应用于高维状态空间的问题。然而,底层的Q-学习机制,尤其是其更新规则,带有一种固有的乐观倾向:它会系统性地高估动作价值。这不仅仅是一个微小的不准确;它会对学习性能和稳定性产生负面影响。我们来分析一下原因。
回顾表格方法中使用的标准Q-学习更新规则:
核心部分是项。这一部分估算可从下一状态获得的最大可能价值。问题出现是因为本身就是估计值,特别是在训练早期或使用函数近似器(如神经网络 (neural network))时。这些估计值不可避免地包含噪声或误差。
思考一下当你对多个带噪声的估计值取最大值时会发生什么。如果某些估计值随机地高于其真实值,而另一些则随机地低于其真实值,那么操作更有可能选择其中一个高估的值。它不会平均误差;它会主动选择它所看到的最大的值,可能会放大正向噪声。这会导致下一状态估计值中存在持续的正向偏差。
这种现象被称为最大化偏差。设想在状态中你有几个可用的动作,你的当前函数估算了它们的值,这些值包含一些随机误差:
真实的最佳动作是动作2,其值为1.5。然而,由于估计误差,智能体对动作2的估计值为1.9。操作选择了这个被高估的值(1.9)用于目标计算,导致与真实最大值(1.5)相比存在正向偏差。
在深度Q网络中,这个问题依然存在。用于训练网络的目标值计算如下:
即使我们使用带有参数 (parameter)的单独目标网络以稳定训练,操作仍然应用于该目标网络产生的估计值。如果这些目标Q值有噪声或不确定,最大化步骤将继续引入一个向上的偏差到目标值中。
这种高估会带来什么后果?
理解这种最大化偏差很重要,因为它促使了对基本DQN算法的几项改进。已经开发出专门用于缓解这种过高估计问题的技术,从而实现更可靠、更高效的学习。最直接的解决方案之一是双DQN(Double DQN),它修改了目标值的计算方式。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造